摘要:我們將這些現象籠統稱為廣義的模式崩潰問題。這給出了模式崩潰的直接解釋。而傳統深度神經網絡只能逼近連續映射,這一矛盾造成了模式崩潰。
春節前夕,北美遭遇極端天氣,在酷寒中筆者來到哈佛大學探望丘成桐先生。新春佳節,本是普天同慶的日子,但對于孤懸海外的游子而言,卻是更為凄涼難耐。遠離父母親朋,遠離故國家園,自然環境寒風凜冽,飛雪漫天,社會環境疏離淡漠,冷清寂寥。在波士頓見到導師和朋友,倍感欣慰。筆者曾經輔導過的Kylie剛剛從哈佛畢業。哈佛本科生的主流一般選擇進入華爾街的金融公司,Kylie卻特立獨行地選擇了教育。筆者輔導過的Simon剛剛被哈佛錄取,矢志投身數學。在查爾斯河畔的LegalSeafood, Kylie給了Simon很多在哈佛求學的建議。看到弟子們的茁壯成長,筆者不禁感慨萬千:時光荏苒,昭華流逝,人生苦短,擇英才而教之,生命才會更有意義!
筆者和哈佛大學統計系的劉軍教授交流,劉教授告訴筆者最近有麻省理工的學者來哈佛尋求教職,求職學術演講的主題就是最優傳輸理論在深度學習中的應用。由此可以,深度學習的最優傳輸理論解釋逐漸被廣泛接受。在哈佛大學的數學科學與應用中心(Harvard CMSA),丘先生和筆者進一步探討深度學習中對抗生成網絡和蒙日-安培方程理論的關系。
遙想二十多年前,筆者剛剛投到丘先生門下的時候,丘先生教給筆者的第一個幾何分析的利器就是蒙日-安培方程理論(Monge-Ampere Equation)。那時,筆者在麻省理工大學學習機器視覺課程,需要求解閔科夫斯基(Minkowski)問題,即利用高斯曲率反求曲面形狀。丘先生指導筆者用蒙日-安培方程來解決這一問題。當時無論如何也無法想象二十多年后,這一理論會在深度學習領域發揮重要作用。
近些年來,深度學習的革命幾乎席卷了整個計算機科學領域,尤其是這兩年來對抗生成網絡模型(GAN)石破天驚、一騎絕塵,而蒙日-安培理論恰好可以為GAN提供強有力的理論支持。多少年來,丘先生一直強調基礎理論的重要性,他曾經多次說道:“人類歷史上技術的本質發展都是來自基礎理論的重大突破,基礎理論突破后往往經過數十年才會被工程技術領域所領會吸收。因此,對于科學的發展應該持有長遠的觀點,不能急功近利。”在筆者數十年的學術生涯中,多次見證了丘先生所預言的情形發生,例如陳類之于拓撲絕緣體,證明龐加萊猜測的黎奇曲率流(Ricci FLow)之于醫學圖像。
目前,筆者和很多合作者們傾向于認為蒙日-安培理論,最優傳輸理論對深度學習的發展會起到實質性作用,并為之孜孜以求。這次和丘先生主要討論蒙日-安培方程正則性理論關于GAN模型中模式崩潰(Mode Collapse)的解釋,細節請見論文【1】。
模式崩潰 (Mode Collapse)
對抗生成網絡被廣泛應用于圖像生成領域,比較常用的有超分辨率、圖像翻譯、卡通人物生成、人體姿態生成、年齡變換、風格變換等等,超乎想象,精彩紛呈。另一方面,GAN模型訓練困難,變化無常,神秘莫測。由于其強烈的不穩定性,目前難以大規模實用。
圖1. MNIST數據集 tSNE 嵌入在平面上,10個團簇對應著10個模式(modes)。模式崩潰(Mode Collapse)指生成模型只生成其中的幾種模式。
如圖1所示,給定數據集合,我們用編碼映射將其映入隱空間中,每個數字對應一個團簇,即MNIST數據的概率分布密度函數具有多個峰值,每個峰值被稱為是一個模式(mode)。理想情況下,生成模型應該能夠生成10個數字,如果只能生成其中的幾個,而錯失其它的模式,則我們稱這種現象為模式崩潰(mode collapse)。
具體而言,GAN訓練中經常出現如下三個層次的問題:
訓練過程難以收斂,經常出現震蕩;實驗結果隨機,難以復現;
訓練收斂,但是出現模式崩潰(Mode Collapse)。例如,我們用MNIST數據集訓練GAN模型,訓練后的GAN只能生成十個數字中的某一個;或者在人臉圖片的實驗中,只生成某一種風格的圖片。
用真實圖片訓練后的GAN模型涵蓋所有模式,但是同時生成一些沒有意義、或者現實中不可能出現的圖片。
我們將這些現象籠統稱為廣義的模式崩潰問題。如何解釋模式崩潰的原因,如何設計新型算法避免模式崩潰,這些是深度學習領域的更為基本的問題。我們用最優傳輸中的Brenier理論,和蒙日-安培方程(Monge-Ampere)的正則性(regularity)理論來解釋模式崩潰問題。
GAN和蒙日-安培方程
我們以前討論過對抗生成網絡的最優傳輸觀點:生成器(Generator)將隱空間的高斯分布變換成數據流形上一個分布,判別器(Discriminator)計算生成分布和真實數據分布之間的距離,例如Wasserstein距離。這些操作本質上都可以用最優傳輸理論來解釋,并且加以改進。以歐氏距離平方為代價函數的最優傳輸問題歸結為Brenier理論,并且等價于凸幾何中的Alexandrov理論,最終歸結為蒙日-安培方程。
在工程計算中,我們通常用Alexandrov弱解來逼近真實解,我們以前討論過Alexandrov弱解的存在性和性。
蒙日-安培方程的正則性理論
由Brenier定理,Brenier勢能函數為整體Lipschitz,因此幾乎處處可導。我們稱可求導的點為正常點(regular point),不可求導的點為奇異點(singular point),則奇異點集合為零測度。我們考察每一點處的次微分,
圖2. 最優傳輸映射中的奇異點集合,(蘇科華作)。
如圖2所示,目標測度的支集具有兩個聯通分支,我們稠密采樣目標測度,表示成定義在兩個團簇上面的狄拉克測度。我們然后計算蒙日-安培方程的Alenxandrov解。依隨采樣密度增加,狄拉克測度弱收斂到目標測度,Alenxandrov解收斂到真實解。我們看到Brenier勢能函數的Alenxandrov解可以表示成一張凸曲面,圖曲面中間有一條脊線(ridge),脊線的投影是最優傳輸映射的奇異點集
圖3. GPU版本的最優傳輸映射(郭洋、Simon Lam 作)。
圖3顯示了基于GPU算法的從平面長方形上的均勻分布到兩個半圓盤上的均勻分布的最優傳輸映射,長方形的中線顯示了最優傳輸映射的奇異點集
圖4. GPU版本的最優傳輸映射(郭洋、Simon Lam作)。
圖4從平面長方形上的均勻分布到啞鈴形狀上的均勻分布的最優傳輸映射,仔細觀察,我們可以看出最優傳輸映射的奇異點集是中線上的兩條線段,介于紅藍斑點之間。
圖5. 最優傳輸映射的奇異點結構(齊鑫、蘇科華作)。
圖6. 實心兔子和實心球之間的最優傳輸映射,表面皺褶結構,(蘇科華作)。
最優傳輸映射的奇異點結構理論在高維空間依然成立,如圖6所示,實心球體和實心兔子體之間的最優傳輸映射誘導了兔子表面上的大量皺褶,最優傳輸映射在皺褶處間斷。
模式崩潰的理論解釋
目前的深度神經網絡只能夠逼近連續映射,而傳輸映射是具有間斷點的非連續映射,換言之,GAN訓練過程中,目標映射不在DNN的可表示泛函空間之中,這一顯而易見的矛盾導致了收斂困難;如果目標概率測度的支集具有多個聯通分支,GAN訓練得到的又是連續映射,則有可能連續映射的值域集中在某一個連通分支上,這就是模式崩潰(mode collapse);如果強行用一個連續映射來覆蓋所有的連通分支,那么這一連續映射的值域必然會覆蓋之外的一些區域,即GAN會生成一些沒有現實意義的圖片。這給出了GAN模式崩潰的直接解釋。
那么,如何來用真實數據驗證我們的猜測呢?我們用CelebA數據集驗證了傳輸映射的非連續性。
圖7. AE-OT體系結構。
圖8. AE-OT生成的人臉圖像。
圖10. 在隱空間進行插值的結果。
那么如何避免模式崩潰呢?通過以上分析我們知道,深度神經網絡只能逼近連續映射,傳輸映射本身是非連續的,這一內在矛盾引發了模式崩潰。但是最優傳輸映射是Brenier勢能函數的梯度,Brenier勢能函數本身是連續的,因此深度神經網絡應該來逼近Brenier勢能函數,而非傳輸映射。更進一步,我們應該判斷Brenier勢能函數的奇異點,即圖2中的脊線和圖6中的皺褶。
小結
基于真實數據的流形分布假設,我們將深度學習的主要任務分解為學習流形結構和概率變換兩部分;概率變換可以用最優傳輸理論來解釋和實現。基于Brenier理論,我們發現GAN模型中的生成器D和判別器G計算的函數彼此可以相互表示,因此生成器和判別器應該交流中間計算結果,用合作代替競爭。Brenier理論等價于蒙日-安培方程,蒙日-安培方程正則性理論表明:如果目標概率分布的支集非凸,那么存在零測度的奇異點集,傳輸映射在奇異點處間斷。而傳統深度神經網絡只能逼近連續映射,這一矛盾造成了模式崩潰。
通過計算Brenier勢能函數,并且判定奇異點集,我們可以避免模式崩潰。這些算法存在GPU實現方式。這種方法更為穩定,魯棒,訓練效率大為提升,并且用透明的理論模型部分取代了經驗的黑箱。
References
【1】Na Lei, Yang Guo, Dongsheng An, Xin Qi, Zhongxuan Luo, Shing-Tung Yau, Xianfeng Gu. "Mode Collapse and Regularity of Optimal Transportation Maps", ArXiv:1902.02934
聲明:文章收集于網絡,為傳播信息而發,如有侵權,請聯系小編及時處理,謝謝!
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4847.html
摘要:引用格式王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍生成對抗網絡的研究與展望自動化學報,論文作者王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍摘要生成式對抗網絡目前已經成為人工智能學界一個熱門的研究方向。本文概括了的研究進展并進行展望。 3月27日的新智元 2017 年技術峰會上,王飛躍教授作為特邀嘉賓將參加本次峰會的 Panel 環節,就如何看待中國 AI學術界論文數量多,但大師級人物少的現...
摘要:特征匹配改變了生成器的損失函數,以最小化真實圖像的特征與生成的圖像之間的統計差異。我們建議讀者檢查上使用的損失函數和相應的性能,并通過實驗驗證來設置。相反,我們可能會將注意力轉向尋找在生成器性能不佳時不具有接近零梯度的損失函數。 前 ?言GAN模型相比較于其他網絡一直受困于三個問題的掣肘:?1. 不收斂;模型訓練不穩定,收斂的慢,甚至不收斂;?2. mode collapse; 生成器產生的...
摘要:例如,即插即用生成網絡通過優化結合了自動編碼器損失,損失,和通過與訓練的分類器定于的分類損失的目標函數,得到了較高水平的樣本。該論文中,作者提出了結合的原則性方法。 在機器學習研究領域,生成式對抗網絡(GAN)在學習生成模型方面占據著統治性的地位,在使用圖像數據進行訓練的時候,GAN能夠生成視覺上以假亂真的圖像樣本。但是這種靈活的算法也伴隨著優化的不穩定性,導致模式崩潰(mode colla...
摘要:最近老顧收到很多讀者來信,絕大多數詢問對抗生成網絡的最優傳輸解釋,以及和蒙日安培方程的關系。蒙日安培方程的幾何解法硬件友好,可以用目前的并行實現。蒙日安培方程的正則性理論更加復雜,但是對于模式塌縮的理解非常關鍵。 最近老顧收到很多讀者來信,絕大多數詢問對抗生成網絡的最優傳輸解釋,以及和蒙日-安培方程的關系。很多問題涉及到經典蒙日-安培方程理論,這里我們從偏微分方程和幾何角度介紹一下蒙日-安培...
摘要:的兩位研究者近日融合了兩種非對抗方法的優勢,并提出了一種名為的新方法。的缺陷讓研究者開始探索用非對抗式方案來訓練生成模型,和就是兩種這類方法。不幸的是,目前仍然在圖像生成方面顯著優于這些替代方法。 生成對抗網絡(GAN)在圖像生成方面已經得到了廣泛的應用,目前基本上是 GAN 一家獨大,其它如 VAE 和流模型等在應用上都有一些差距。盡管 wasserstein 距離極大地提升了 GAN 的...
閱讀 1459·2021-11-22 13:52
閱讀 1281·2021-09-29 09:34
閱讀 2690·2021-09-09 11:40
閱讀 3031·2019-08-30 15:54
閱讀 1255·2019-08-30 15:53
閱讀 971·2019-08-30 11:01
閱讀 1354·2019-08-29 17:22
閱讀 1943·2019-08-26 10:57