摘要:信息瓶頸理論由耶路撒冷希伯來大學的計算機與神經科學家等人提出。與我取得聯系并分享了一篇已提交盲審的論文,論文作者對信息瓶頸理論的一些發現作了批判性分析。這是一個重要更新,指出了信息瓶頸理論的一些局限性。
「信息瓶頸」(Information Bottleneck)理論由耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 等人提出。該研究有望最終打開深度學習的黑箱,并解釋人腦的工作原理(參見:揭開深度學習黑箱:希伯來大學計算機科學教授提出「信息瓶頸」)。Geoffrey Hinton 曾對此研究評論道:「信息瓶頸極其有趣,估計要再聽 10000 遍才能真正理解它,當今能聽到如此原創的想法非常難得,或許它就是解開謎題的那把鑰匙?!?/p>
目前,一篇有關深度學習中信息瓶頸理論的論文《On the information bottleneck theory of deep learning》已提交 ICLR 2018 大會盲審,然而這篇論文的內容主要是指出信息瓶頸理論的局限。該論文已經引起了很多人的關注,有學者甚至在社交網絡上評論道:這篇論文「戳穿了一個巨大的泡沫」。本文作者 Adrian Colyer 將對這一工作進行解讀。
上周,我們研究了 Schwartz-Viz 和 Tishby 的深度學習論文《Opening the Black Box of Deep Neural Networks via Information》,其思想令人贊嘆,從一種新視角展示了深度神經網絡內部發生的一切。Sathiya Keerthi 與我取得聯系并分享了一篇已提交 ICLR 2018 盲審的論文——《On the information bottleneck theory of deep learning》,論文作者對信息瓶頸理論的一些發現作了批判性分析。這是一個重要更新,指出了信息瓶頸理論的一些局限性。
在這篇論文中,作者首先從再現 Schwartz-Viz 和 Tishby 論文中的「信息平面動態」(information plane dynamics)開始,接著展開進一步實驗:使用 ReLU 替代激活函數 tanh,觀察有何影響;探索泛化與壓縮之間的聯系;研究訓練期間隨機性對壓縮是否重要;以及研究在何種程度上與任務不相關的信息也被壓縮。
簡單來說,該論文發現 Schwartz-Viz 和 Tishby 論文中的結果無法很好地泛化到其他網絡架構:訓練期間的兩個階段依賴于激活函數的選擇;無法證明壓縮與泛化之間存在因果關系;當壓縮確實發生時,它不一定依賴于來自隨機梯度下降(SGD)的隨機性。
我們的結果強調在應用信息理論分析深度學習系統時噪聲假設的重要性,并且通過展示表征壓縮與泛化性能存在分歧的實例來復雜化深度學習的信息瓶頸理論。
下面我們來更深入地理解
激活函數選擇的影響
我們的分析起點是發現改變激活函數能顯著地改變信息平面中的網絡軌跡。
作者借助 Schwartz-Vis 和 Tishby 提供的代碼首次再現了我們上周看到的結果(見下圖 1A),接著改變網絡以使用 ReLU——修正線性激活函數,最終獲得的信息平面動態請見圖 1B。
我們看到 tanh 激活函數的相移消失了!
輸入的互信息在所有的 ReLu 層中單調遞增,沒有明顯的壓縮階段。因此,非線性函數的選擇實質上影響了信息平面的動態。
作者使用一個非常簡單的三神經元網絡進一步探討了這一現象。標量高斯輸入分布通過標量第一層權重 w1 饋送,并通過神經非線性函數 f(·) 傳輸以獲取隱藏單元活動。
為了計算互信息,隱藏單元活動被離散化至 30 個統一的分箱(bin)中,以獲得離散變量。
使用 tanh 非線性函數,互信息先增后降。使用 ReLU 非線性函數,互信息一直呈上升趨勢。
tanh 函數權重較大,飽和時會下降,以接近 1 比特的輸入(即分散變量集中于 1 和 -1 周圍的 bin)提供互信息。而使用 ReLU 函數,一半輸入是負的,聚集在 0 周圍的 bin,而另一半呈高斯分布,熵隨權重的變化而單調遞增。因此,tanh 的雙面飽和特性是原始結果的關鍵。
……隨著隱藏單元進入飽和態,由于用于計算互信息的分箱(binning)步驟,雙飽和非線性(double-saturating nonlinearities)導致輸入信息的壓縮。我們注意到分箱可以看作是暗中向隱藏層活動中添加噪聲:多個 X 映射至一個 bin,這樣 X 和 T 之間的映射不再是完美可逆的。
分箱對信息理論分析非常關鍵,「但是,實踐中噪聲沒有添加至這些神經網絡的訓練或測試過程中?!?/p>
tanh 的飽和說明互信息下降時出現了壓縮階段,以及 tanh 網絡進入壓縮階段后訓練過程變慢的原因:部分輸入使非線性函數出現飽和,減少了反向傳播的誤差梯度。
獨立于壓縮的泛化
隨后,作者使用信息平面鏡頭進一步研究了壓縮和泛化之間的關系。
……我們利用 student-teacher 設置(Seung et al.,1992;Advani & Saxe, 2017)下訓練的簡單線性網絡探索泛化動態的最近結果。該設置可以讓我們較精確地計算網絡泛化性能和表征的互信息(未經分箱),以及直接對比線性高斯問題已知的信息瓶頸邊界。
在信息平面中(上圖 D)我們沒有觀察到壓縮,盡管網絡確實學習了一個可以很好地泛化至任務的路線圖,并顯示了最小的過度訓練。在實驗中執行不同程度的過擬合表明,信息平面中具有相似行為的網絡可能具有不同的泛化性能。
這就建立了信息平面中行為與泛化動態之間的分離:壓縮的網絡可能會也可能不會很好地泛化,未壓縮的網絡也是如此。
隨機有助于壓縮嗎?
接下來,作者首先研究了導致壓縮的因素,分析了隨機梯度下降(SGD)和批量梯度下降(BGD)的區別。SGD 從數據集中拿出一個樣本,并計算相關的誤差梯度,而批量梯度下降使用所有樣本的整體誤差:「關鍵是,在更新中沒有隨機或擴散性的行為?!?/p>
使用 SGD 和 BGD 對 tanh 和線性網絡分別進行訓練,信息平面動態如下:
我們發現二者的信息動態大體一致,tanh 網絡對于兩種方法都有較魯棒的壓縮。因此訓練過程中的隨機性似乎對輸入信息的壓縮貢獻不大。該發現與「壓縮主要原因是雙飽和非線性」的觀點一致。
對任務不相關信息進行壓縮
最后的實驗將輸入 X 分割成任務相關的輸入和任務不相關的輸入。前者貢獻信號,后者貢獻噪聲。因此好的泛化似乎需要忽略噪聲。論文作者發現當任務相關的信息發生擬合時,任務不相關的信息發生壓縮,盡管整體看來沒有觀察到輸入出現壓縮階段。
結果
我們的結果表明信息平臺中的壓縮動態不是深層網絡的普遍特征,但是網絡使用的非線性函數對此有很大影響……信息壓縮可以與尖銳最小值(sharp minima)同時出現;盡管實驗證明在特定設置中泛化誤差和架構有關系,進一步的理論分析證明尖銳最小值也可以實現很好的泛化效果。
論文:On the Information Bottleneck Theory of Deep Learning
論文鏈接:https://openreview.net/forum?id=ry_WPG-A-
摘要:深度神經網絡的理論與實踐成果并不匹配,理論無法解釋深度神經網絡的行為。本論文研究了深度學習的信息瓶頸理論(IB),該理論有三個主要觀點:(1)深度網絡需要兩個階段:初始擬合階段和后續壓縮階段;(2)壓縮階段和深度網絡卓越的泛化性能之間存在因果關系;(3)壓縮階段由于隨機梯度下降的擴散行為才會出現。本文中,我們證明了這些觀點通常情況下是錯誤的。通過分析結果和模擬,我們展示了信息平面軌跡主要使用了一種神經非線性函數:雙飽和非線性(double-sided saturating nonlinearities)函數,如 tanh 函數,當神經激活函數進入飽和態時,深度網絡進入壓縮階段;而線性激活函數和單飽和非線性函數,如廣泛使用的 ReLU 就不是這樣。線性神經網絡的泛化誤差動態的近期結果表明壓縮和泛化之間不存在因果關系:沒有壓縮的網絡也能夠泛化,反之亦然。通過使用全批量梯度下降代替隨機梯度下降來復現瓶頸理論,我們還證明了壓縮階段不需要訓練過程中的隨機性。最后,我們證明當輸入域包含任務相關或不相關信息的子集時,隱藏的表征(hidden representation)對任務不相關的信息進行壓縮,盡管輸入的整體信息隨著訓練時間而單調遞增,壓縮與擬合過程并行發生,而不是在后續的壓縮階段中出現。
一言以蔽之,我們驗證了深度學習信息瓶頸理論中的多個觀點在一般情況下并不正確。
爭議
值得一提的是,在 Open Review 論文平臺上,「信息瓶頸」理論的提出者 Naftali Tishby 等人也與論文作者展開了交鋒。Tishby 表示,這篇新論文重復和驗證了「信息瓶頸」理論先前研究的實驗,證實并強化了這一理論,但同時又忽略了許多理論和實驗結果,在許多方面都是有缺陷和誤導性的。?
相關鏈接
Ravid Shwartz-Ziv 與 Naftali Tishby 2017 年提交的論文《Opening the Black Box of Deep Neural Networks via Information》:https://arxiv.org/abs/1703.00810
原文鏈接:https://blog.acolyer.org/2017/11/24/on-the-information-bottleneck-theory-of-deep-learning/
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4692.html
摘要:我們稱之為啤酒泡沫。是什么讓牛頓這樣的智者也變得如此瘋狂第一,錢多路窄。這些發生在區塊鏈領域的監管并不是壞事。 不知道大家有沒有過倒啤酒的經驗,當我們往杯中倒啤酒時,倒得越快,產生的泡沫就越多。這些泡沫很快會溢出杯外,而杯中的啤酒則會因泡沫的溢出迅速減少,甚至只留下不到一半。我們稱之為啤酒泡沫。 showImg(https://segmentfault.com/img/bVbggjL?...
摘要:認為,深度神經網絡根據一種被稱為信息瓶頸的過程在學習,他和兩位合作者最早在年對這一過程進行了純理論方面的描述。另外一些研究人員則持懷疑態度,認為信息瓶頸理論不能完全解釋深學習的成功。 利用深度神經網絡的機器已經學會了交談、開車,在玩視頻游戲和下圍棋時擊敗了世界冠軍,還能做夢、畫畫,幫助進行科學發現,但同時它們也深深地讓其發明者困惑,誰也沒有料到所謂的深度學習算法能做得這么好。沒有基本的原則指...
摘要:耶路撒冷希伯來大學的計算機與神經科學家提出了一項名為信息瓶頸的新理論,有望最終打開深度學習的黑箱,以及解釋人腦的工作原理。 耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 提出了一項名為「信息瓶頸」(Information Bottleneck)的新理論,有望最終打開深度學習的黑箱,以及解釋人腦的工作原理。這一想法是指神經網絡就像把信息擠進瓶頸一樣,只留下與一般概念更為...
摘要:創新萌芽期望最頂點下調預期至低點回歸理想生產率平臺。而大數據已從頂峰滑落,和云計算接近谷底。對于迅速成長的中國市場,大公司也意味著大數據。三家對大數據的投入都是不惜余力的。 非商業轉載請注明作譯者、出處,并保留本文的原始鏈接:http://www.ituring.com.cn/article/177529 董飛,Coursera數據工程師。曾先后在創業公司酷迅,百度基礎架構組...
閱讀 3094·2021-08-03 14:05
閱讀 2140·2019-08-29 15:35
閱讀 678·2019-08-29 13:30
閱讀 3169·2019-08-29 13:20
閱讀 2530·2019-08-23 18:15
閱讀 1796·2019-08-23 14:57
閱讀 2213·2019-08-23 13:57
閱讀 1309·2019-08-23 12:10