“信息瓶頸”理論揭示深度學習本質，Hinton說他要看1萬遍

wuyumin 發布于2019-04-25 18:18 / 1854人閱讀

摘要：認為，深度神經網絡根據一種被稱為信息瓶頸的過程在學習，他和兩位合作者最早在年對這一過程進行了純理論方面的描述。另外一些研究人員則持懷疑態度，認為信息瓶頸理論不能完全解釋深學習的成功。

利用深度神經網絡的機器已經學會了交談、開車，在玩視頻游戲和下圍棋時擊敗了世界冠軍，還能做夢、畫畫，幫助進行科學發現，但同時它們也深深地讓其發明者困惑，誰也沒有料到所謂的“深度學習”算法能做得這么好。沒有基本的原則指引這些學習系統，除了一些模糊的來自人類大腦的設計靈感（而關于這一點，實際上也沒有人真正懂得多少）。

像大腦一樣，深度神經網絡也有很多層神經元。當神經元被激活時，它會發出信號，連接上面一層的神經元。在深度學習的過程中，網絡中的連接會根據需要被加強或減弱，從而讓網絡更好地根據輸入（例如一張狗的照片的像素）發送信號，信號層層向上，經過所有相關的神經元，這些神經元都與“狗”這個概念的高層抽象有關。一個深度神經網絡在“學習”過數以千計的狗的照片后，能像人一樣準確地識別出從未見過的照片中的狗。

從具體個例到通用概念的飛躍，讓深度神經網絡擁有了如同人類在推理、創作時所展現出的“智能”。專業人員想知道，是什么賦予了神經網絡泛化的能力，也想知道人類的大腦在多大程度上也在進行類似的活動。

近年來少有的干貨演講，Hinton說他要看上10000遍才懂

上月，在柏林舉行的一場演講為這一疑問提供了一個可能的回答，這場演講的視頻在人工智能研究人員間廣為分享。

演講中，希伯來大學的計算機科學家和神經學家Naftali Tishby，提出了一種解釋深度學習工作原理的新理論，并給出了證據支撐。Tishby認為，深度神經網絡根據一種被稱為“信息瓶頸”（information bottleneck）的過程在學習，他和兩位合作者最早在1999年對這一過程進行了純理論方面的描述。

Naftali Tishby在柏林的演講《深度學習：理論、算法和應用》，時長約58分鐘。Hinton評價說，這是近年來少有的干貨演講

信息瓶頸理論認為，網絡像把信息從一個瓶頸中擠壓出去一般，去除掉那些含有無關細節的噪音輸入數據，只保留與通用概念（general concept）最相關的特征。Tishby和他的學生Ravid Shwartz-Ziv的實驗，展示了深度學習過程中這種“擠壓”是如何發生的（至少在他們所研究的案例里）。

Tishby的發現在AI研究圈激起了強烈的反向。Google Researc的Alex Alemi說：“我認為信息瓶頸的想法可能在未來深度神經網絡的研究中非常重要。”Alemi已經開發了新的近似方法，在大規模深度神經網絡中應用信息瓶頸分析。Alemi說，信息瓶頸可能“不僅能夠用于理解為什么神經網絡有用，也是用于構建新目標和新網絡架構的理論工具”。

另外一些研究人員則持懷疑態度，認為信息瓶頸理論不能完全解釋深學習的成功。但是，紐約大學的粒子物理學家Kyle Cranmer——他使用機器學習來分析大型強子對撞機的粒子碰撞——表示，一種通用的學習原理（a general principle of learning），“聽上去有些道理”。

深度學習先驅Geoffrey Hinton在看完Tishby的柏林演講后發電子郵件給Tishby?！斑@簡直太有趣了，”Hinton寫道：“我還得聽上10,000次才能真正理解它，但如今聽一個演講，里面有真正原創的想法，而且可能解決重大的問題，真是非常罕見了?！?/p>

Tishby認為，信息瓶頸是學習的一個基本原則，無論是算法也好，蒼蠅也罷，任何有意識的存在或突發行為的物理學計算，大家最期待的答案——“學習最重要的部分實際上是忘記”。

香農錯了——利用信息論，我們能夠較精確定義“相關性”

Tishby很早便開始考慮信息瓶頸的問題，那時候其他研究人員也才剛剛開始醞釀深度神經網絡，盡管當時無論是信息瓶頸還是深度神經網絡都還沒有得名。那是20世紀80年代，Tishby在思考人類是如何做語音識別的——語音識別是當時AI的一個重大挑戰。Tishby意識到，問題的關鍵是相關性：說出來的一個詞最相關的特征是什么，我們又該如何從重音、語調、模糊音等變量中將這個特征計算出來？在通常情況下，當我們面對現實生活中汪洋大海般的數據時，哪些信號是我們會保留下來的？

“相關信息（relevant information）的概念在歷史上提到了許多次，但從來沒有被正確地形式化，”Tishby在上個月接受采訪時說：“多年來，人們認為信息論不是考慮相關性的正確方式，這個誤解可以一直追溯到香農本人?！?/p>

克勞德·香農，信息論的創始人，從某種程度上說，是香農解放了人類對信息的研究，讓信息能夠以抽象的0、1形式和純粹的數學意義被研究。正如Tishby所說的那樣，香農認為“信息并非關乎語義”。但是，Tishby認為，這是不正確的。

Tishby意識到，利用信息論，“你能較精確定義‘相關’（relevant）”。

希伯來大學計算機科學家和神經學家Naftali Tishby

假設X是一個復雜的數據集，就像一張狗的照片的像素，而Y是這些數據代表的一個更為簡單的變量，比如單詞“狗”。你可以任意壓縮X而不丟失預測Y的能力，將X中所有與Y“相關”的信息捕獲下來。在他們1999年的論文中，Tishby和他的共同作者，Fernando Pereira（現在在谷歌）和William Bialek（現在在普林斯頓大學），將這一過程轉換成一個數學優化問題并且提出了數學公式。這是一個沒有殺手級應用的核心基礎概念。

“我沿著這條路在各種不同的情景中思考了30年，”Tishby說：“我的運氣就是深度神經網絡變得如此重要?！?/p>

一篇論文的驚人發現：深度學習與物理重整化是完全相同的過程

深度神經網絡背后的概念已經存在了幾十年，但它們在語音和圖像識別任務中的表現在最近幾年才開始起飛，得益于改進了訓練方案和更強大的計算機處理器。Tishby在讀了物理學家David Schwab和Pankaj Mehta在2014年發表的一篇論文后，開始注意到深度學習與信息瓶頸理論的關聯。

David Schwab和Pankaj Mehta兩人發現，Hinton發明的“深度信念網絡”（DBN），在一種特定的情況下，酷似物理學中的重整化（renormalization），也就是以粗粒度的方式獲取物理系統的細節，從而計算其整體狀態。當Schwab和Mehta將深度信念網絡應用于一個處于“臨界點”的磁力模型時（這時該系統是分形，在任意尺度都自相似），他們發現，網絡會自動使用重整化般的過程來發現模型的狀態。

這一發現令人震驚，正如生物物理學家Ilya Nemenman當時評論所說的那樣，它表明了“在統計物理的背景下提取相關特征和在深度學習的背景下提取相關特征并不只是類似，而是完完全全的同一個。”

物理學家David Schwab和Pankaj Mehta在2014年的論文，證明在特定情況下深度學習等同于物理中的重整化技術，這讓Tishby注意到信息瓶頸理論與深度學習之間的關聯

的問題是，在一般情況下，現實世界并不是分形。Cranmer說：“我不會說[重整化步驟]就是深度學習在處理自然圖像時效果這么好的原因。”

但Tishby——他當時正在接受胰腺癌化療——意識到，無論是粗粒度過程還是深度學習，都可以被一個更廣泛通用的想法所涵蓋。“對科學和對我以前想法的思考是我的治療和康復的重要組成部分，”Tishby說。

Naftali Tishby的學生Noga Zaslavsky（左）和Ravid Shwartz-Ziv，他們幫助開發了深度學習信息瓶頸理論。

信息瓶頸：網絡在抽取相關性時的理論邊界

2015年，Tishby和他的學生Noga Zaslavsky假設深度學習是一個信息瓶頸過程，盡可能地壓縮噪聲數據，同時保留數據所代表的信息。Tishby和Shwartz-Ziv對深度神經網絡的新實驗揭示了瓶頸過程如何實際發生的。在一種情況下，研究人員使用小型神經網絡，使用隨機梯度下降和BP，經過訓練后，能夠用1或0（也即“是狗”或“不是狗”）標記輸入數據，并給出其282個神經連接隨機初始強度，然后跟蹤了網絡在接收3000個樣本輸入數據集后發生了什么。

實驗中，Tishby和Shwartz-Ziv跟蹤了每層網絡保留了多少輸入中的信息和輸出標簽中的信息。結果發現，信息經過逐層傳遞，最終收斂到信息瓶頸的理論邊界：也就是Tishby、Pereira和Bialek在他們1999年論文中推導出的理論界限，代表系統在抽取相關信息時能夠做到的較好的情況。在這個邊界上，網絡在沒有犧牲準確預測標簽能力的情況下，盡可能地壓縮輸入。

Tishby和Shwartz-Ziv還提出了一個有趣的發現，即深度學習分為兩個階段：一個簡短的“擬合”階段，在此期間，網絡學著去標注其訓練數據，以及一個更長時間的“壓縮”階段，在這個階段網絡變得能夠泛化，也即標記新的測試數據。

作者在論文中指出，他們在實驗中首次觀察到了隨機梯度下降優化過程中兩個獨特的階段，經驗誤差最小化（ERM）和表示壓縮。上圖展示了SGD過程中信息逐層傳遞收斂的情況。

在深度神經網絡通過隨機梯度下降調整其連接權重的過程中，首先，網絡存儲的關于輸入的數據會大致保持恒定或者稍微增加一點點，這時網絡連接會進行調整，為輸入中的模式進行編碼，更好地擬合標簽。有一些專家也將這個階段與記憶進行了類比。

然后，學習切換到壓縮階段。網絡開始扔掉一些關于輸入數據的信息，只跟蹤最強的特征——與輸出標簽最相關的那些關聯（correlation）。這是因為，在隨機梯度下降的每次迭代中，訓練數據中或多或少的意外相關性會告訴網絡做不同的事情，在隨機游走（random walk）中上下撥動神經連接的強度。這種隨機化與壓縮系統輸入數據的表示（representation）實際上是相同的?？催@個例子，一些狗的照片的背景中可能有房子，而其他的照片沒有。在網絡不停地訓練過程中，它可能會“忘記”一些照片中房屋和狗之間的相關性，因為其他照片抵消了這一點。Tishby和Shwartz-Ziv認為，正是對細節的遺忘使得系統能夠形成通用的概念。實際上，他們的實驗表明，深度神經網絡在壓縮階段提高了泛化性能，在標記測試數據方面變得更好。?

信息瓶頸能否解釋所有的深度學習？

信息瓶頸是否能解釋所有深度學習，除了壓縮以外是否還有其他的泛化途徑，這些還有待觀察。一些AI專家認為，Tishby的想法是近期出現的關于深度學習最重要的理論見解之一。不過，哈佛大學AI研究員和理論神經科學家Andrew Saxe指出，某些非常大的深度神經網絡似乎不需要專門的壓縮階段來泛化。研究人員會用一種叫做“早期停止”（early stopping）的方式進行編程，減少訓練，從一開始就防止網絡編碼過多的相關性。

Tishby認為，Saxe及其同事分析的網絡模型與標準的深度神經網絡架構有所不同，但是即使如此，信息瓶頸的理論界限比其他方法更好地定義了這些網絡的泛化性能。關于瓶頸是否適用于較大神經網絡，Tishby和Shwartz-Ziv的實驗部分解決了這一問題。在的這項實驗中，Tishby他們訓練了更大的，擁有33萬連接的深度神經網絡，識別美國國家標準和技術研究所數據庫（Modified National Institute of Standards and Technology database）中60,000張手寫數字的圖像，這也是衡量深度學習算法性能的一個知名基準。

Tishby和Shwartz-Ziv觀察到了同樣的現象，網絡收斂到了信息瓶頸的理論界限；他們也觀察到了深度學習那兩個截然不同的階段，并且與較小的網絡相比，大規模網絡在這兩個階段的轉換更加明顯。

“我現在完全相信這是一個普遍現象?！盩ishby說。

人與機器：學習過程中最重要的，是遺忘

大腦如何從我們的感官中篩選信號并將其提升到意識水平的謎團驅使了早期AI研究者對深度神經網絡的興趣，他們希望逆向設計大腦的學習規則。時至今日，AI從業者在技術進步的狂熱中，已經在很大程度上放棄了這一點，迷醉于提高性能而不考慮生物學上的合理性。不過，在他們打造的思維機器能力不斷提升的過程中，許多研究人員仍然希望，這些探索能夠揭示關于學習和智能的通用見解。

紐約大學心理學和數據科學助理教授Brenden Lake致力于研究人類和機器學習的異同，他認為Tishby的發現是“打開神經網絡黑匣子的重要一步”。但Lake強調說，大腦代表了一個更大、更黑的黑盒子。成年人的大腦擁有860億個神經元，之間更有數百萬億個連接，很可能采用了眾多策略來加強泛化，遠遠超越嬰兒期發生的基本的圖像和聲音識別的學習過程，后者在很大程度上類似當前的深度學習。

Lake說，Tishby觀察到的擬合和壓縮階段，似乎并不能對應到兒童學習手寫字符的過程中。人類孩子學習認字寫字，并不需要看數千個字符并在比較長的時間中壓縮他們思維中的表示（representation）。事實上，人類兒童可以從一個樣本中學習。Lake和他的同事構建模型表明，大腦可能會把新的字符解構成一系列的筆畫——以前就有的思維表示，從而將字母（letter）的概念加入到先前的知識大廈中，“而不是像標準的機器學習算法一樣，將一個字母作為像素圖案來學習，通過映射特征學習概念”。Lake說，人類建立了一個簡單的因果模型——一個更短的泛化路徑。

這種想法可能為AI研究社區帶來啟發，進一步推動兩個領域彼此間的往來。Tishby認為，他的信息瓶頸理論最終將被證明在兩門學科中都有用，可能在人類學習中采取一種比AI學習更泛化的表示。信息瓶頸理論的一個直接應用，便是更好地了解人類神經網絡和人工神經網絡可以解決哪些問題。

“它給出了可以學習的問題的完整描述，”Tishby說：“這些都是我可以在輸入中消除噪音，而不會損害我分類能力的問題。例如自然視覺、語音識別。這些也正是我們的大腦可以應付的問題?！?/p>

同時，人類神經網絡和人工神經網絡都無法很好地解決另一些問題，那就是每個細節都很重要，因此無法去除信息的問題。例如，大多數人不能快速地在心里將兩個數字相乘。Tishby說：“我們有一大堆類似這樣的問題，改變一個變量都會引發全局變化的邏輯問題。例如離散問題、加密問題。我不認為深度學習都幫助我破譯密碼。”

泛化——或者說遍歷信息瓶頸——意味著舍棄一些細節。這對心算不好，但心算并不是大腦的主要任務。我們擅長在人群中尋找熟悉的面孔，在嘈雜、混亂的世界中對尋找顯著信號的秩序。正如Naftali Tishby所說，學習中最重要的，實際上是遺忘。

原文鏈接：https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器深度學習理論深度學習理論方法深度學習理論基礎深度學習使用的理論

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4627.html

揭開深度學習黑箱：希伯來大學計算機科學教授提出「信息瓶頸」

摘要：耶路撒冷希伯來大學的計算機與神經科學家提出了一項名為信息瓶頸的新理論，有望最終打開深度學習的黑箱，以及解釋人腦的工作原理。耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 提出了一項名為「信息瓶頸」（Information Bottleneck）的新理論，有望最終打開深度學習的黑箱，以及解釋人腦的工作原理。這一想法是指神經網絡就像把信息擠進瓶頸一樣，只留下與一般概念更為...

desdik 2019-04-25 18:18 評論0 收藏0
Geoffrey Hinton：放棄反向傳播，我們的人工智能需要重頭再來

摘要：論文鏈接會上其他科學家認為反向傳播在人工智能的未來仍然起到關鍵作用。既然要從頭再來，的下一步是什么值得一提的是，與他的谷歌同事和共同完成的論文已被大會接收。三十多年前，深度學習著名學者 Geoffrey Hinton 參與完成了論文《Experiments on Learning by Back Propagation》，提出了反向傳播這一深刻影響人工智能領域的方法。今天的他又一次呼吁研究...

mykurisu 2019-04-25 18:17 評論0 收藏0
它將是你的第二大腦——長文講述谷歌深度學習的故事

摘要：深度學習現在被視為能夠超越那些更加直接的機器學習的關鍵一步。的加入只是谷歌那一季一系列重大聘任之一。當下谷歌醉心于深度學習，顯然是認為這將引發下一代搜索的重大突破。移動計算的出現已經迫使谷歌改變搜索引擎的本質特征。 Geoffrey Hiton說：我需要了解一下你的背景，你有理科學位嗎？Hiton站在位于加利福尼亞山景城谷歌園區辦公室的一塊白板前，2013年他以杰出研究者身份加入這家公司。H...

jackzou 2019-04-25 17:58 評論0 收藏0
淺析 Hinton 最近提出的 Capsule 計劃

摘要：近幾年以卷積神經網絡有什么問題為主題做了多場報道，提出了他的計劃。最初提出就成為了人工智能火熱的研究方向。展現了和玻爾茲曼分布間驚人的聯系其在論文中多次稱，其背后的內涵引人遐想。 Hinton 以深度學習之父和神經網絡先驅聞名于世，其對深度學習及神經網絡的諸多核心算法和結構（包括深度學習這個名稱本身，反向傳播算法，受限玻爾茲曼機，深度置信網絡，對比散度算法，ReLU激活單元，Dropo...

Donald 2019-04-25 18:18 評論0 收藏0
戳穿泡沫：對「信息瓶頸」理論的批判性分析

摘要：信息瓶頸理論由耶路撒冷希伯來大學的計算機與神經科學家等人提出。與我取得聯系并分享了一篇已提交盲審的論文，論文作者對信息瓶頸理論的一些發現作了批判性分析。這是一個重要更新，指出了信息瓶頸理論的一些局限性。「信息瓶頸」（Information Bottleneck）理論由耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 等人提出。該研究有望最終打開深度學習的黑箱，并解釋人腦...

xiaodao 2019-04-25 18:22 評論0 收藏0