摘要:老顧受邀在一些大學(xué)和科研機構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。昨天年月日,嚴(yán)東輝教授邀請老顧在泛華統(tǒng)計協(xié)會舉辦的應(yīng)用統(tǒng)計會議上做了深度學(xué)習(xí)的幾何觀點的報告。小結(jié)最優(yōu)傳輸理論可以用于解釋深度學(xué)習(xí)中的概率分布變換。
(最近,哈佛大學(xué)丘成桐先生領(lǐng)導(dǎo)的團隊,大連理工大學(xué)羅鐘鉉教授、雷娜教授領(lǐng)導(dǎo)的團隊?wèi)?yīng)用幾何方法研究深度學(xué)習(xí)。老顧受邀在一些大學(xué)和科研機構(gòu)做了題為“深度學(xué)習(xí)的幾何觀點”的報告,匯報了這方面的進(jìn)展情況。這里是報告的簡要記錄,具體內(nèi)容見【1】。)
昨天(2018年6月15日),嚴(yán)東輝教授邀請老顧在泛華統(tǒng)計協(xié)會( International Chinese Statistical Association)舉辦的應(yīng)用統(tǒng)計會議(ICSA2018 Applied Statistics Symposium)上做了“深度學(xué)習(xí)的幾何觀點”的報告。會議上Eric Xing教授給出報告,用統(tǒng)計概率的觀點統(tǒng)一了變分自動編碼器(VAE,Variational Autoencoder)和生成對抗網(wǎng)絡(luò)(GAN,Generative Aderseral Network)。老顧用幾何觀點將VAE和GAN加以分析,再度闡述GAN模型中的對抗是虛擬的,沒有必要的,生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)是冗余的。(以前的博文曾經(jīng)系統(tǒng)闡述過,請見 “虛構(gòu)的對抗,GAN with the wind”)下面我們從幾何角度詳細(xì)解釋。
圖1. 流形結(jié)構(gòu)。
我們前面闡述過深度學(xué)習(xí)成功的核心原因可以部分歸結(jié)為流形分布律和聚類分布律(深度學(xué)習(xí)的幾何觀點(1) - 流形分布定律),深度學(xué)習(xí)的基本任務(wù)就在于從數(shù)據(jù)中學(xué)習(xí)流形結(jié)構(gòu),建立流形的參數(shù)表達(dá);和變換概率分布。
圖2. 隱空間的同胚映射,改變概率分布。
凸幾何理論
最優(yōu)傳輸?shù)睦碚撎烊坏睾屯箮缀伍h可夫斯基理論等價,因此我們可以用更為直觀的幾何觀點來分析概率變換問題,從而可以將深度學(xué)習(xí)中的黑箱部分用透明的數(shù)學(xué)模型來取代。
圖3. 閔可夫斯基定理。
如圖3所示,給定一個凸多面體,每個面的法向量已知,面積已知,所有面的面積和法向量的乘積之和等于0,閔可夫斯基(Minkowski)定理證明這樣的凸多面體存在,并且彼此相差一個平移。
圖5. 亞歷山大定理。
這一理論可以直接推廣到任意維,證明不需要改動。
Brenier理論,Alexandroff理論的等價關(guān)系
最優(yōu)傳輸?shù)腂renier理論和凸幾何的Alexandroff理論本質(zhì)上是等價的。下面我們來具體分析。
圖6. 離散最優(yōu)傳輸問題。
圖7. 離散Brenier勢能函數(shù)的構(gòu)造。
圖6. 最優(yōu)傳輸映射的計算實例。
圖6顯示了這種方法的一個計算實例,首先我們將滴水獸曲面用黎曼映照映射到平面單位圓盤,黎曼映射的像如下行左幀所示,那么曲面的面元誘導(dǎo)了平面圓盤上的一個測度。平面圓盤上的歐氏面元定義了均勻測度。我們用上面講述的變分法來構(gòu)造平面圓盤到自身的最優(yōu)傳輸映射,最優(yōu)傳輸映射的像如下行右?guī)尽D敲醋顑?yōu)傳輸映射的結(jié)果給出了從曲面到平面圓盤的保面元映射。
對抗生成網(wǎng)絡(luò)(GAN)
2014年,Goodfellow 提出了GAN的概念,他的解釋如下:GAN的核心思想是構(gòu)造兩個深度神經(jīng)網(wǎng)絡(luò):判別器D和生成器G,用戶為GAN提供一些真實貨幣作為訓(xùn)練樣本,生成器G生成假幣來欺騙判別器D,判別器D判斷一張貨幣是否來自真實樣本還是G生成的偽幣;判別器和生成器交替訓(xùn)練,能力在博弈中同步提高,最后達(dá)到平衡點的時候判別器無法區(qū)分樣本的真?zhèn)?,生成器的偽造功能爐火純青,生成的貨幣幾可亂真。這種計算機左右手互搏的對抗圖景,使得GAN成為更為吸引人的深度學(xué)習(xí)模型。
圖7. WassersteinGAN的理論框架。
這意味著:在最優(yōu)情況下,判別器D由生成器G的結(jié)果直接給出;生成器G由判別器D的結(jié)果直接給出;判別器D和生成器G之間的對抗是虛擬的;判別器網(wǎng)絡(luò)和生成器網(wǎng)絡(luò)是冗余的。這和人們對于GAN模型生成器、判別器相克相生的想象大相徑庭。
半透明深度網(wǎng)絡(luò)模型
圖8. 半透明深度網(wǎng)絡(luò)模型。
傳統(tǒng)的變分自動編碼器VAE核心想法是將隱空間的概率分布變換成高斯分布,手法相當(dāng)曲折。
因為概率變換可以用最優(yōu)傳輸理論來清晰闡釋,并且用牛頓法優(yōu)化凸能量可以保證全局最優(yōu)性,和高階收斂速度,我們可以將深度學(xué)習(xí)中的概率變換部分分離出來,用透明的數(shù)學(xué)模型來取代,其他部分依然用傳統(tǒng)的黑箱來運算,如此得到了半透明的網(wǎng)絡(luò)模型【4】。
real digits and VAE results
WGAN and AE-OMT
圖9. 半透明網(wǎng)絡(luò)的計算結(jié)果和其他模型的計算結(jié)果比較。
我們將半透明網(wǎng)絡(luò)做為生成模型,在手寫體數(shù)據(jù)集合上進(jìn)行測試。如圖9所示,半透明網(wǎng)絡(luò)的計算結(jié)果優(yōu)于傳統(tǒng)的VAE和WGAN結(jié)果。
圖10. VAE和半透明網(wǎng)絡(luò)比較。
我們將半透明網(wǎng)絡(luò)做為生成模型,在人臉圖片數(shù)據(jù)集合上進(jìn)行測試。如圖10所示,半透明網(wǎng)絡(luò)的計算結(jié)果優(yōu)于傳統(tǒng)的VAE結(jié)果。
小結(jié)
最優(yōu)傳輸理論可以用于解釋深度學(xué)習(xí)中的概率分布變換。最優(yōu)傳輸?shù)腂renier理論和凸幾何中的Alexandroff理論等價,我們的理論結(jié)果給出了基于變分法的構(gòu)造。在這種情形下,生成器和判別器彼此等價,它們之間的對抗不再需要,網(wǎng)絡(luò)體系結(jié)構(gòu)可以大幅簡化。在深度學(xué)習(xí)中,我們可以將流形降維和概率變換分開,用透明的最優(yōu)傳輸模型來部分取代黑箱,得到半透明網(wǎng)絡(luò)模型。
References? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Na Lei, Zhongxuan Luo, Shing-Tung Yau and David Xianfeng Gu. ?"Geometric Understanding of Deep Learning". arXiv:1805.10451?.?
https://arxiv.org/abs/1805.10451
Xianfeng Gu, Feng Luo, Jian Sun, and Shing-Tung Yau. "Variational principles for minkowski type problems, discrete optimal transport", and discrete monge-ampere equations. Asian Journal of Mathematics (AJM), 20(2):383-398, 2016.
Na Lei,Kehua Su,Li Cui,Shing-Tung Yau,David Xianfeng Gu, "A Geometric View of Optimal Transportation and Generative Model", arXiv:1710.05488. https://arxiv.org/abs/1710.05488
Huidong L,Xianfeng Gu, Dimitris Samaras, "A Two-Step Computation of the Exact GAN Wasserstein Distance", ICML 2018.
聲明:文章收集于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系小編及時處理,謝謝!
商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/4791.html
摘要:老顧受邀在一些大學(xué)和科研機構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。深度學(xué)習(xí)的主要目的和功能之一就是從數(shù)據(jù)中學(xué)習(xí)隱藏的流形結(jié)構(gòu)和流形上的概率分布。 (最近,哈佛大學(xué)丘成桐先生領(lǐng)導(dǎo)的團隊,大連理工大學(xué)羅鐘鉉教授、雷娜教授領(lǐng)導(dǎo)的團隊?wèi)?yīng)用幾何方法研究深度學(xué)習(xí)。老顧受邀在一些大學(xué)和科研機構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。這里是報告的簡要記錄,具體內(nèi)容見【1...
摘要:最近老顧收到很多讀者來信,絕大多數(shù)詢問對抗生成網(wǎng)絡(luò)的最優(yōu)傳輸解釋,以及和蒙日安培方程的關(guān)系。蒙日安培方程的幾何解法硬件友好,可以用目前的并行實現(xiàn)。蒙日安培方程的正則性理論更加復(fù)雜,但是對于模式塌縮的理解非常關(guān)鍵。 最近老顧收到很多讀者來信,絕大多數(shù)詢問對抗生成網(wǎng)絡(luò)的最優(yōu)傳輸解釋,以及和蒙日-安培方程的關(guān)系。很多問題涉及到經(jīng)典蒙日-安培方程理論,這里我們從偏微分方程和幾何角度介紹一下蒙日-安培...
摘要:老顧受邀在一些大學(xué)和科研機構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。特別是深度學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)能力取決于網(wǎng)絡(luò)的超參數(shù),如何設(shè)計超參數(shù),目前主要依賴于經(jīng)驗。 (最近,哈佛大學(xué)丘成桐先生領(lǐng)導(dǎo)的團隊,大連理工大學(xué)羅鐘鉉教授、雷娜教授領(lǐng)導(dǎo)的團隊?wèi)?yīng)用幾何方法研究深度學(xué)習(xí)。老顧受邀在一些大學(xué)和科研機構(gòu)做了題為深度學(xué)習(xí)的幾何觀點的報告,匯報了這方面的進(jìn)展情況。這里是報告的簡要記錄,具體內(nèi)容...
摘要:我們將這些現(xiàn)象籠統(tǒng)稱為廣義的模式崩潰問題。這給出了模式崩潰的直接解釋。而傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)只能逼近連續(xù)映射,這一矛盾造成了模式崩潰。 春節(jié)前夕,北美遭遇極端天氣,在酷寒中筆者來到哈佛大學(xué)探望丘成桐先生。新春佳節(jié),本是普天同慶的日子,但對于孤懸海外的游子而言,卻是更為凄涼難耐。遠(yuǎn)離父母親朋,遠(yuǎn)離故國家園,自然環(huán)境寒風(fēng)凜冽,飛雪漫天,社會環(huán)境疏離淡漠,冷清寂寥。在波士頓見到導(dǎo)師和朋友,倍感欣慰。筆...
閱讀 4024·2021-11-22 13:53
閱讀 1722·2021-09-23 11:52
閱讀 2443·2021-09-06 15:02
閱讀 946·2019-08-30 15:54
閱讀 906·2019-08-30 14:15
閱讀 2390·2019-08-29 18:39
閱讀 662·2019-08-29 16:07
閱讀 426·2019-08-29 13:13