深度學(xué)習(xí)的幾何觀點（1） - 流形分布定律

XUI 發(fā)布于2019-04-25 18:27 / 3380人閱讀

摘要：老顧受邀在一些大學(xué)和科研機構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告，匯報了這方面的進展情況。深度學(xué)習(xí)的主要目的和功能之一就是從數(shù)據(jù)中學(xué)習(xí)隱藏的流形結(jié)構(gòu)和流形上的概率分布。

（最近，哈佛大學(xué)丘成桐先生領(lǐng)導(dǎo)的團隊，大連理工大學(xué)羅鐘鉉教授、雷娜教授領(lǐng)導(dǎo)的團隊?wèi)?yīng)用幾何方法研究深度學(xué)習(xí)。老顧受邀在一些大學(xué)和科研機構(gòu)做了題為“深度學(xué)習(xí)的幾何觀點”的報告，匯報了這方面的進展情況。這里是報告的簡要記錄，具體內(nèi)容見【1】。）

深度學(xué)習(xí)技術(shù)正在深刻地改變著人類的歷史進程，它在圖像識別、語音識別、自然語言處理、文本翻譯等幾乎所有信息科學(xué)領(lǐng)域，都帶來了翻天覆地的革命。我們這個時代所面臨的更為根本的問題之一就是為深度學(xué)習(xí)的有效性給出一個合理的答案。

縱觀人類歷史的歷次技術(shù)革命，火的使用，青銅器的制作工藝，農(nóng)業(yè)的大規(guī)模普及，機械的應(yīng)用，內(nèi)燃機的發(fā)明，電力電氣工業(yè)的成熟，電子計算機技術(shù)的推廣，信息工業(yè)的蓬勃發(fā)展等等，無一不是建筑在深刻的自然科學(xué)原理之上的。雖然當(dāng)時人類可能主觀上并沒有真正意識到，但是在客觀上都是順應(yīng)了自然，可能是物理、化學(xué)、或者生物方面的基本定律。那么深度學(xué)習(xí)的巨大成功究竟歸功于哪一條自然定律？

我們認為，和歷史上的歷次技術(shù)革命不同，深度學(xué)習(xí)的成功是基于兩條：數(shù)據(jù)本身的內(nèi)在規(guī)律，深度學(xué)習(xí)技術(shù)能夠揭示并利用這些規(guī)律。數(shù)據(jù)科學(xué)（或者信息科學(xué)）中的基本定律（或者更為保守的，基本假設(shè)）可以歸結(jié)為：

1. 流形分布定律：自然界中同一類別的高維數(shù)據(jù)，往往集中在某個低維流形附近。

2. 聚類分布定律：這一類別中不同的子類對應(yīng)著流形上的不同概率分布，這些分布之間的距離大到足夠?qū)⑦@些子類區(qū)分。

圖1. 流形的定義。

深度學(xué)習(xí)的主要目的和功能之一就是從數(shù)據(jù)中學(xué)習(xí)隱藏的流形結(jié)構(gòu)和流形上的概率分布。

關(guān)于聚類分布定律，目前有相對完善的理論基礎(chǔ)-最優(yōu)傳輸理論，和較為實用的算法，例如基于凸幾何的蒙日-安培方程解法【2】，這些方法可以測量概率分布之間的距離，實現(xiàn)概率分布之間的變換【3】。關(guān)于流形分布定律，目前理論發(fā)展不太完備，很多時候?qū)W習(xí)效果嚴重依賴于調(diào)參。但是很多實際應(yīng)用問題，都可以用流形的框架來建模，從而用幾何的語言來描述、梳理，用幾何理論工具來加以解決，進而有望從含混模糊的經(jīng)驗性試錯，進化到思路清晰的定量研究。

流形結(jié)構(gòu)

圖2. 流形和參數(shù)化映射。

例二：如圖2所示，米勒佛曲面是三維空間中的二維流形，參數(shù)化映射將曲面映射到平面圓盤。這一映射的逆映射給出了曲面的參數(shù)化表示。這里，所有的映射都是用分片線性映射來逼近的。注意，這里參數(shù)化映射并不，這會帶來隱空間概率密度的變化，后面我們會對此進行詳細討論。

圖3. 所有人臉圖像符合流形分布定律。

那么在現(xiàn)實中，我們?nèi)绾螌W(xué)習(xí)人臉圖像構(gòu)成的流形呢？這里所謂的“學(xué)習(xí)”意味著什么？答案是用人臉圖片的樣本集來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，我們可以得到人臉圖像流形的參數(shù)化映射（編碼）和局部參數(shù)表示（解碼）。

編碼、解碼器

圖4. 自動編碼解碼器。

一旦我們掌握了流形在手，我們可以完成很多傳統(tǒng)方法無法想象的應(yīng)用，也可以革新很多傳統(tǒng)方法所涉獵的經(jīng)典應(yīng)用。下面我們通過幾個實例來彰顯流形思維框架的威力。

生成模型（Generative Model）

圖5. 生成模型。

生成模型是深度學(xué)習(xí)的一個典型應(yīng)用，如圖5所示，輸入一張低維的白噪音，輸出一張逼真的人臉圖像。這在傳統(tǒng)框架下是匪夷所思的：我們妙手空空，平白無故地變出一張人臉！但在流形框架下非常簡單。

圖像去噪（denoising）

圖像去噪是圖像處理的經(jīng)典問題?；谛畔⒄摚覀儗в性胍舻膱D像進行傅里葉變換，在頻域濾波，去除高頻分量，然后再進行傅里葉逆變換，得到去噪圖像。因為噪聲往往分布在高頻部分，因此這一方法比較奏效。這種經(jīng)典方法比較普適，和圖像內(nèi)容無關(guān)。

圖6. 圖像去噪的流形解釋。

圖7. Autoencoder圖像去噪結(jié)果。

圖8. 左幀，輸入流形和噪聲點；右?guī)?，噪聲點被投影到重建的流形上。投影由Autoencoder實現(xiàn)。

這種方法不問噪聲的形成機制，適用于各種噪聲。但是這種方法嚴重依賴于圖片內(nèi)容。這里我們進行人臉圖像去噪，因此需要清晰人臉圖像流形。如果，我們將帶噪聲的人臉圖像向清晰貓臉圖像流形投影，所得結(jié)果不再具有任何實際意義。

這顯示了用深度學(xué)習(xí)方法去噪的某種局限性，首先我們必須擁有相應(yīng)的流形，其次不同類型的圖像，需要不同的流形。貓臉流形無法應(yīng)用于人臉圖像，反之亦然。這種局限詮釋了深度學(xué)習(xí)仍屬于弱人工智能范疇。

年齡變換

圖9. 基于深度學(xué)習(xí)的年齡變換（黃迪教授）。

如圖9所示，給定一張人臉圖像，生成這張臉二十年后的圖像，或者倒推這張臉二十年前的圖像，這種變換我們稱之為人臉圖像年齡變換。對于傳統(tǒng)方法而言，人臉圖像年齡變換是難以完成的任務(wù)。用深度學(xué)習(xí)的流形框架，我們可以給出清晰的解決方案。

手寫體數(shù)字識別

圖10. 手寫體數(shù)字流形。

如圖10所示，我們考察所有手寫體數(shù)字二值圖像構(gòu)成的流形，左幀是真實數(shù)據(jù)，右?guī)巧蓴?shù)據(jù)。0到9這十個數(shù)字在此流形上定義了十個不同的概率分布。我們用編碼映射將流形映射到隱空間，編碼映射將這十個分布“推前”到隱空間上。為了可視化，我們將隱空間定義為二維平面，如此得到十個概率分布。

圖11. 手寫體數(shù)字在隱空間的概率分布。

圖11顯示了不同數(shù)字在隱空間的概率分布，這種流形+概率分布可以對知識進行更加詳盡的表述，從而用于識別分類等問題。

深度學(xué)習(xí)有效性的幾何解釋

流形結(jié)構(gòu) 根據(jù)數(shù)據(jù)科學(xué)的流形分布定律，自然數(shù)據(jù)背后隱藏著流形結(jié)構(gòu)，深度學(xué)習(xí)方法可提取這些流形結(jié)構(gòu)，并用神經(jīng)網(wǎng)絡(luò)來表達流形間的映射，給出流形本身的參數(shù)化和參數(shù)表示。這些流形結(jié)構(gòu)和其上的特定概率分布是整體先驗知識的有效表示，正是因為具備這些先驗知識，很多視覺和機器學(xué)習(xí)的問題能夠被有效解決。流形能夠表達一類數(shù)據(jù)的整體先驗知識，傳統(tǒng)方法只能利用局部較少的先驗知識。

方法論的靈活性傳統(tǒng)方法依賴于嚴格的因果關(guān)系，往往用偏微分方程來表達自然規(guī)律。很多相關(guān)性可以用概率分布來表述，用深度學(xué)習(xí)可以習(xí)得。傳統(tǒng)方法需要自變量和因變量之間較精確的數(shù)學(xué)關(guān)系，流形框架下的深度學(xué)習(xí)只需要猜測流形的存在性和大致維數(shù)就可以學(xué)出流形結(jié)構(gòu)。

學(xué)習(xí)能力的觀察

那么，深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)流形的能力究竟如何？我們考察一個低維流形的簡單例子，見微知著，從中可以觀察到一些富有啟發(fā)的現(xiàn)象。

圖 12. 彌勒佛曲面，輸入流形。

圖13. 隱空間表示和胞腔分解。

圖14. 重建流形。

我們假設(shè)背景空間是三維歐氏空間，流形是米勒佛曲面，如圖12所示。我們在彌勒佛表面上稠密采樣，然后訓(xùn)練一個自動編碼器，得到編碼映射和解碼映射。編碼映射將曲面映射到隱空間即二維歐氏空間，如圖13所示；解碼映射將隱空間表示映射回背景空間，得到重建流形，如圖14所示。我們采用ReLU作為激活函數(shù)，編碼解碼映射為分片線性映射。編碼映射將背景空間分解為很多胞腔，在每個胞腔內(nèi)編碼映射為線性映射，圖13右?guī)嫵隽吮尘翱臻g的胞腔分解。我們從圖中可以看到重建流形比較較精確地逼近了原始的輸入流形，幾乎保留了所有的幾何細節(jié)。為了達到這一理想效果，艱苦的調(diào)參不可避免。而這正是深度學(xué)習(xí)的困難所在：缺乏理論指導(dǎo)的實驗性調(diào)節(jié)超參數(shù)。

仔細觀察這個編碼、解碼過程，我們看到重建曲面在很大程度上較好地逼近了輸入曲面，保持了細微的幾何特征，參數(shù)化映射建立了整體同胚。由此，引發(fā)了下面的問題：

如何從幾何上刻畫一個深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力？是否可以定義一個指標來明確表示神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力的上限？

如何從幾何上刻畫一個流形被學(xué)習(xí)的難度？是否可以定義一個指標來明確表示這一難度？

對于任意一個深度神經(jīng)網(wǎng)絡(luò)，如何構(gòu)造一個它無法學(xué)習(xí)的流形？

在下一講中，我們對這些問題進行深入討論。

小結(jié)

我們認為，深度學(xué)習(xí)的成功應(yīng)該歸功于數(shù)據(jù)自身具有內(nèi)在的規(guī)律：高維數(shù)據(jù)分布在低維流形附近，流形上具有特定概率分布，同時歸功于深度學(xué)習(xí)網(wǎng)絡(luò)強大的逼近非線性映射的能力。深度學(xué)習(xí)技術(shù)可以從一類數(shù)據(jù)中提取流形結(jié)構(gòu)，將整體先驗知識用流形來表達，具體而言就是編碼解碼映射，隱含在神經(jīng)元的權(quán)重之中。

深度學(xué)習(xí)的強大能力來源于某類知識的整體表達，而傳統(tǒng)算法只能利用同一類別的局部有限知識。同時深度學(xué)習(xí)囿于底層流形的選擇，很多算法移植性依賴于底層流形的替換。

深度學(xué)習(xí)的流形框架有助于模塊化編程。我們可以想象，在未來深度的商品化硬件或軟件模塊將是各個類別的流形，和流形之間的映射，以及流形上概率密度之間的變換。底層的流形模塊已經(jīng)被AI公司訓(xùn)練完善，大規(guī)模產(chǎn)品化，用戶只需要搭建這些模塊就可以實現(xiàn)各種功能。

References? ? ? ? ? ? ? ? ? ? ? ??

Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu. ?"Geometric Understanding of Deep Learning". arXiv:1805.10451?.?

https://arxiv.org/abs/1805.10451

Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.

Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器深度學(xué)習(xí)的深度深度學(xué)習(xí)的學(xué)習(xí) 學(xué)習(xí)深度學(xué)習(xí)的深度學(xué)習(xí)的深度指

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/4777.html

發(fā)表評論

登陸后可評論

0條評論

XUI

男|高級講師

我要關(guān)注我要私信

TA的文章

ABOV 程序 - 移動監(jiān)測運動平臺控制

閱讀 1113·2021-11-19 09:40
【劍指 Offer II】 082. 含有重復(fù)元素集合的組合

閱讀 969·2021-11-12 10:36
虛擬主機的作用是什么意思-服務(wù)器與虛擬主機有什么區(qū)別？

閱讀 1259·2021-09-22 16:04
DUX主題7.4版本更新：新增文字LOGO、Ajax閱讀數(shù)、點贊狀態(tài)、后臺閱讀量排序等多項功能

閱讀 3106·2021-09-09 11:39
10個有趣的javascript和css庫（2019年最新）

閱讀 1266·2019-08-30 10:51
前端知識匯總

閱讀 1882·2019-08-30 10:48
【前端工程師手冊】css會阻塞頁面dom解析嗎？javascript呢？

閱讀 1221·2019-08-29 16:30
HTML5 Audio標簽方法和函數(shù)API介紹

閱讀 464·2019-08-29 12:37

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

深度學(xué)習(xí)的幾何觀點（1） - 流形分布定律

相關(guān)文章

**深度學(xué)習(xí)的幾何理解（3） - 概率變換的幾何觀點**

**深度學(xué)習(xí)的幾何理解（2） - 學(xué)習(xí)能力的上限**

GAN和蒙日-安培方程理論

GAN模式崩潰的理論解釋

淺析 Hinton 最近提出的 Capsule 計劃

發(fā)表評論

0條評論

XUI

男|高級講師

TA的文章

ABOV 程序 - 移動監(jiān)測運動平臺控制

【劍指 Offer II】 082. 含有重復(fù)元素集合的組合

虛擬主機的作用是什么意思-服務(wù)器與虛擬主機有什么區(qū)別？

DUX主題7.4版本更新：新增文字LOGO、Ajax閱讀數(shù)、點贊狀態(tài)、后臺閱讀量排序等多項功能

10個有趣的javascript和css庫（2019年最新）

前端知識匯總

【前端工程師手冊】css會阻塞頁面dom解析嗎？javascript呢？

HTML5 Audio標簽方法和函數(shù)API介紹

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

深度學(xué)習(xí)的幾何觀點（1） - 流形分布定律

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！