摘要:耶路撒冷希伯來大學的計算機與神經科學家提出了一項名為信息瓶頸的新理論,有望最終打開深度學習的黑箱,以及解釋人腦的工作原理。
耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 提出了一項名為「信息瓶頸」(Information Bottleneck)的新理論,有望最終打開深度學習的黑箱,以及解釋人腦的工作原理。這一想法是指神經網絡就像把信息擠進瓶頸一樣,只留下與一般概念更為相關的特征,去掉大量無關的噪音數據。深度學習先驅 Geoffrey Hinton 則在發給 Tishby 的郵件中評價道:「信息瓶頸極其有趣,估計要再聽 10000 遍才能真正理解它,當今能聽到如此原創的想法非常難得,或許它就是解開謎題的那把鑰匙。」
一個稱為「信息瓶頸」的新想法有助于解釋當今人工智能算法的黑箱問題——以及人類大腦的工作原理。
如今「深度神經網絡」已經學會對話、駕駛汽車、打視頻游戲、玩圍棋、繪畫并輔助科研,這使其人類構建者很是困惑,并為深度學習算法的成果深感意外。這些學習系統的設計并沒有一條明確的原則,除了來自大腦神經元的靈感(其實并沒有人知道大腦是如何工作的),并且 DNN 早就和大腦神經元的原理相去甚遠。
像大腦一樣,深度神經網絡具有神經元層——這些人工神經元構成了計算機的記憶。當一個神經元激活,它向連接到下一層的神經元發送信號。在深度學習中,網絡連接按需強化或弱化(加權連接)從而更好地把來自輸入數據的信號——比如,一張狗的圖像像素點——發送到與高級概念(比如狗)相關聯的神經元。當深度神經網絡學習數以千計的狗的樣本圖像之后,它可像人一樣較精確地從新圖像中辨識出狗。這一魔術般的學習能力使其具備了可像人一樣推理、創造進而擁有智能的基礎。專家好奇深度學習是如何做到這一點的,并在何種程度上與人腦理解世界的方式相同。
從經驗中學習。深度神經網絡通過調節連接權重以更好地傳遞輸入信號,信號經過隱藏層,最終到達與正確概念相關聯的神經元。當數據輸入到神經網絡,激活的每一個神經元(被標注為 1)把信號傳遞到下一層的特定神經元(如果接受到多個信號則很可能被激活)。這一過程會過濾掉噪聲并只保留最相關的特征。
上月,一個在人工智能研究者之間廣泛流傳的柏林會議 YouTube 視頻給出了黑箱可能的答案。會議中來自耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 為一項解釋深度學習工作原理的新理論提供了證據。Tishby 論證道深度神經網絡依據被稱作「信息瓶頸」的步驟學習,這一術語其與另外兩名合作者早在 1999 年就已提出。這一想法是指神經網絡就像把信息擠進瓶頸一樣,只留下與一般概念更為相關的特征,去掉大量無關的噪音數據。由 Tishby 及其學生 Ravid Shwartz-Ziv 聯合進行的引人注目的實驗揭示了發生在深度學習之中的擠壓過程,至少在他們研究案例中是這樣。Tishby 的發現在人工智能社區中引發了躁動。谷歌研究員 Alex Alemi 說:「我認為信息瓶頸對未來的深度神經網絡研究很重要。我甚至發明了新的近似方法,從而把信息瓶頸分析應用到大型深度神經網絡中。」他又說:「信息瓶頸不僅可以作為理論工具用來理解神經網絡的工作原理,同樣也可以作為構建網絡架構和新目標函數的工具。」
一些研究者則仍懷疑該方法是否徹底解釋了深度學習的成功,但是 Kyle Cranmer——一名來自紐約大學粒子物理學家,他曾使用機器學習分析了大量強子對撞機中的粒子對撞——則認為信息瓶頸作為一般性的學習原理,「多少還是正確的」。
深度學習先驅 Geoffrey Hinton 在柏林會議之后給 Tishby 發了郵件:「信息瓶頸極其有趣,估計要再聽 10000 遍才能真正理解它,當今能聽到如此原創的想法非常難得,或許它就是解開謎題的那把鑰匙。」
據 Tishby 所講,信息瓶頸是一個根本性的學習原則,不管是算法、家蠅、有意識的存在還是突發事件的物理計算。我們期待已久的答案即是「學習的關鍵恰恰是遺忘。」
瓶頸
Tishby 大概是在其他的研究者開始搞深度神經網絡之時開始構思信息瓶頸的。那是 1980 年代,Tishby 在思考人類在語音識別上的極限是什么,當時這對人工智能來說是一個巨大的挑戰。Tishby 意識到問題的關鍵是相關性:口頭語言更為相關的特征是什么?我們如何從與之相隨的變量中(口音、語調等)將其提取出來?一般來講,當面對現實世界的海量數據之時,我們會保留哪些信號?
希伯來大學計算機科學教授 Naftali Tishby
「相關性的理念在歷史上多有提及,但從未得到正確的闡述;從香農本人有誤差的概念開始,多年來人們并不認為信息論是闡述相關性的正確方式。」Tishby 在上月的采訪中說。
信息論的建立者香農通過抽象思考在一定意義上解放了始于 1940 年代的信息研究——1 和 0 只具有純粹的數學意義。正如 Tishby 所說,香農認為信息與語義學無關,但是 Tishby 并不認同。借助信息論,Tishby 意識到可以較精確地定義相關性。
假設 X 是一個復雜的數據集,比如狗的圖像像素,Y 是一個被這些數據表征的較簡單的變量,比如單詞「狗」。通過盡可能地壓縮 X 而又不失去預測 Y 的能力,我們在關于 Y 的 X 中可以捕獲所有的相關性信息。在 1999 年的論文中,Tishby 與聯合作者 Fernando Pereira(現在谷歌)、William Bialek(現在普林斯頓大學)共同將這個概念闡述為一個數學優化問題。這是一個沒有潛在黑箱問題的基本思想。
Tishby 說:「30 年來我在不同的環境下一直思考它,我的慶幸是深度神經網絡變的如此重要。」
眼球長在臉上,臉長在人身上,人處于場景中
盡管這一隱藏在深度神經網絡后面的概念已經討論了幾十年,但是它們在語音識別、圖像識別等任務中的表現在 2010 年代才出現較大的發展,這和優化的訓練機制、更強大的計算機處理器息息相關。2014 年,Tishby 閱讀了物理學家 David Schwab 和 Pankaj Mehta 的論文《An exact mapping between the Variational Renormalization Group and Deep Learning》(變分重整化和深度學習之間的映射關系),認識到他們與信息瓶頸原則的潛在聯系。
Schwab 和 Mehta 發現 Hinton 發明的深度學習算法「深度信念網絡」在特定的情況下和重整化(renormalization)一樣,重整化是一種通過粗粒化物理系統的細節、計算全局狀態從而簡化該系統的技術。二人將深度信念網絡應用到分形(在不同的尺度上有自相似性)臨界磁化系統模型中時,他們發現網絡將自動使用一種類似重整化的過程尋找模型的狀態。這令人印象深刻,正如生物物理學家所說,「統計物理學中的提取相關特征和深度學習中的提取相關特征不只是相似的詞,它們的含義也是一樣的。」
的問題是,現實世界一般而言不是分形的(fractal)。「自然世界并不是耳朵長在耳朵再長在耳朵上;而是眼球長在臉上,臉長在人身上,人處于場景中,」Cranmer 說,「因此我不會說,深度學習網絡處理自然圖像很優秀是因為其類似重整化的工作方式。」但是,Tishby 意識到,深度學習和粗粒化過程可以被包含于更廣義的思維中。
Noga Zaslavsky(左)和 Ravid Shwartz-Ziv(右)作為 Naftali Tishby 的畢業生幫助建立了深度學習的信息瓶頸理論
在 2015 年,他和他的學生提出假設,(https://arxiv.org/abs/1503.02406)深度學習是一個信息瓶頸程序,盡可能的壓縮數據噪聲,保留數據想表達的信息。Tishby 和 Shwartz-Ziv 的新的深度神經網絡實驗揭示了瓶頸程序是如何工作的。在一個案例中,研究員訓練小型網絡使其將數據標記為 1 或 0(比如「狗」或「非狗」),網絡一共有 282 個神經連接并隨機初始化連接強度,然后他們使用 3000 個樣本的輸入數據集追蹤網絡究竟在做什么。
大多數深度學習網絡訓練過程中用來響應數據輸入和調整神經連接強度的基本算法都是「隨機梯度下降」:每當輸入訓練數據到網絡中,一連串的激活行為將接連每一層的神經元。當信號到達最頂層時,最后的激活模式將對應確定的標簽,1 或 0,「狗」或「非狗」。激活模式和正確的模式之間的不同將會「反向傳播」回網絡的層中,即,正如老師批改作業一樣,這個算法將強化或者弱化每一個連接的強度以使網絡能輸出更產生的輸出信號。經過訓練之后,訓練數據的一般模式將體現在神經連接的強度中,網絡將變成識別數據的專家。
在他們的實驗中,Tishby 和 Shwartz-Ziv 追蹤了深度神經網絡的每一層保留了多少輸入數據的信息,以及每一層保留了多少輸出標簽的信息。他們發現,網絡逐層收斂到了信息瓶頸的理論范圍(Tishby 導出的理論極限)。Pereira 和 Bialek 最初的論文中展示了系統提取相關信息的較佳結果。在信息瓶頸的理論范圍內,網絡將盡可能地壓縮輸入,而無需犧牲較精確預測標簽的能力。
Tishby 和 Shwartz-Ziv 還發現了一個很有趣的結果,深度學習以兩個狀態進行:一個短期「擬合」狀態,期間網絡學習標記輸入數據,和一個時間長得多的長期「壓縮」狀態,通過測試其標記新測試數據的能力可以得出期間網絡的泛化能力變得很強。
圖片來自 arXiv:1703.00810
A. 初始狀態:第一層的神經元編碼輸入數據的所有信息,包括其中的標簽信息。較高層神經元處于幾乎無序的狀態,和輸入數據或者其標簽沒有任何關聯。
B. 擬合狀態:深度學習剛開始的時候,高層神經元獲得輸入數據的信息,并逐漸學會匹配標簽。
C. 狀態變化:網絡的層的狀態突然發生變化,開始「遺忘」輸入數據的信息。
D. 壓縮狀態:網絡的高層壓縮對輸入數據的表示,保留與輸出標簽關聯較大的表示,這些表示更擅長預測標簽。
E. 最終狀態:網絡的較高層在準確率和壓縮率之間取得平衡,只保留可以預測標簽的信息。
當深度神經網絡用隨機梯度下降調整連接強度時,最初網絡存儲輸入數據的比特數基本上保持常量或者增加很慢,期間連接強度被調整以編碼輸入模式,而網絡標注數據的能力也在增長。一些專家將這個狀態與記憶過程相比較。
然后,學習轉向了壓縮狀態。網絡開始對輸入數據進行篩選,追蹤最突出的特征(與輸出標簽關聯最強)。這是因為在每一次迭代隨機梯度下降時,訓練數據中或多或少的偶然關聯都驅使網絡做不同的事情,使其神經連接變得或強或弱,隨機游走。這種隨機化現象和壓縮輸入數據的系統性表征有相同的效果。舉一個例子,有些狗的圖像背景中可能會有房子,而另一些沒有。當網絡被這些照片訓練的時候,由于其它照片的抵消作用,在某些照片中它會「遺忘」房子和狗的關聯。Tishby 和 Shwartz-Ziv 稱,正是這種對細節的遺忘行為,使系統能生成一般概念。實際上,他們的實驗揭示了,深度神經網絡在壓縮狀態中提高泛化能力,從而更加擅長標記測試數據。(比如,被訓練識別照片中的狗的深度神經網絡,可以用包含或者不包含狗的照片進行測試。)
至于信息瓶頸是不是在所有深度學習中都存在,或者說有沒有除了壓縮以外的其它泛化方式,還有待近進一步考察。有些 AI 專家評價 Tishby 的想法是近來深度學習的重要理論洞察之一。哈佛大學的 AI 研究員和理論神經學家 Andrew Saxe 提出,大型深度神經網絡并不需要冗長的壓縮狀態進行泛化。取而代之,研究員使用提前停止法(early stopping)以切斷訓練數據,防止網絡對數據編碼過多的關聯。
Tishby 論證道 Saxe 和其同事分析的神經網絡模型不同于標準的深度神經網絡架構,但盡管如此,信息瓶頸理論范圍比起其它方法更好地定義了這些網絡的泛化能力。而在大型神經網絡中是否存在信息瓶頸,Tishby 和 Shwartz-Ziv 最近的實驗中部分涉及了這個問題,而在他們最初的文章中沒有提過。他們在實驗中通過包含 60,000 張圖片的國家標準與技術局(National Institute of Standards and Technology)(http://yann.lecun.com/exdb/mnist/)的已完善數據集(被視為測量深度學習算法的基準)訓練了 330,000 個連接的深度神經網絡以識別手寫體數字。他們觀察到,網絡中同樣出現了收斂至信息瓶頸理論范圍的行為,他們還觀察到了深度學習中的兩個確切的狀態,其轉換界限比起小型網絡甚至更加銳利而明顯。「我完全相信了,這是一個普遍現象。」Tishby 說道。
人類和機器
大腦從我們的感知中篩選信號并將其提升到我們的感知水平,這一奧秘促使 AI 先驅關注深度神經網絡,他們希望逆向構造大腦的學習規則。然而,AI 從業者在技術進步中大部分放棄了這條路徑,轉而追尋與生物合理性幾乎不相關的方法來提升性能。但是,由于他們的思考機器取得了很大的成績,甚至引起「AI 可能威脅人類生存」的恐懼,很多研究者希望這些探索能夠提供對學習和智能的洞察。
紐約大學心理學和數據科學助理教授 Brenden Lake 研究人類和機器學習方式的異同,他認為 Tishby 的研究成果是『打開神經網絡黑箱的重要一步』,但是他強調大腦展示了一個更大、更黑的黑箱。成年人大腦包含 860 億神經元之間的數百萬億連接,可能具備很多技巧來提升泛化,超越嬰兒時期的基本圖像識別和聲音識別學習步驟,這些步驟可能在很多方面與深度學習類似。
比如,Lake 說根據他的研究,Tishby 確認的擬合和壓縮詞組看起來與孩子學習手寫字的方式并不相同。孩子們并不需要看數千個字并經過一段時間的壓縮心理表征,才能認識那個字,并學會寫字。事實上,他們可以從單一樣本中進行學習。Lake 及其同事制作的模型說明大腦可以將一個新的字解構成一系列筆畫(先前存在的心理建構),使這個字的概念附加到先前知識之上。「并非像標準機器學習算法那樣,把字的圖像當作像素塊,把概念當成特征映射進行學習。」Lake 解釋道,「我的目的是構建該字的簡單因果模型。」一種導致泛化的更短路徑。
如此聰明的想法有助于人工智能社區增長經驗,進一步加強兩個領域的溝通。Tishby 相信信息瓶頸理論最終將會在兩個學科發揮作用,即使它采取了一種在人類學習(而不是人工智能)中更普遍的形式。從該理論中,我們可以更好地理解哪些問題可被人類或人工智能解決。Tishby 說:「它給出了可以學習的問題的完整描述,在這些問題中我可以去除輸入中的噪音而無損于我的分類能力。這是一個自然的視覺問題,語音識別。這也正是人腦可以應對的問題。」
同時,人類和人工神經網絡很難解決每一個細節都很重要以及細微差別影響結果的問題。例如,大多數人無法快速心算兩個大數字相乘的結果。「我們有一大堆這樣的問題,對于變量的細微變化非常敏感的邏輯問題。」Tishby 說道。「分類問題、離散問題、加密問題。我不認為深度學習會幫助我們破解密碼。」
泛化——測量信息瓶頸,或許意味著我們會喪失一些細節。這對于運行中的計算并不友好,但它并不是大腦的主要任務。我們在人群中找到熟悉的面孔,在復雜內容中找到規律,并在充滿噪聲的世界里提取有用的信息。?
原文鏈接:https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4628.html
摘要:信息瓶頸理論由耶路撒冷希伯來大學的計算機與神經科學家等人提出。與我取得聯系并分享了一篇已提交盲審的論文,論文作者對信息瓶頸理論的一些發現作了批判性分析。這是一個重要更新,指出了信息瓶頸理論的一些局限性。 「信息瓶頸」(Information Bottleneck)理論由耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 等人提出。該研究有望最終打開深度學習的黑箱,并解釋人腦...
摘要:認為,深度神經網絡根據一種被稱為信息瓶頸的過程在學習,他和兩位合作者最早在年對這一過程進行了純理論方面的描述。另外一些研究人員則持懷疑態度,認為信息瓶頸理論不能完全解釋深學習的成功。 利用深度神經網絡的機器已經學會了交談、開車,在玩視頻游戲和下圍棋時擊敗了世界冠軍,還能做夢、畫畫,幫助進行科學發現,但同時它們也深深地讓其發明者困惑,誰也沒有料到所謂的深度學習算法能做得這么好。沒有基本的原則指...
摘要:而這種舉一反三的能力在機器學習領域同樣適用,科學家將其稱之為遷移學習。與深度學習相比,我們技術較大優點是具有可證明的性能保證。近幾年的人工智能熱潮中,深度學習是最主流的技術,以及之后的成功,更是使其幾乎成為的代名詞。 如今,人類將自己的未來放到了技術手里,無論是讓人工智能更像人類思考的算法,還是讓機器人大腦運轉更快的芯片,都在向奇點靠近。谷歌工程總監、《奇點臨近》的作者庫茲韋爾認為,一旦智能...
摘要:但是在當時,幾乎沒有人看好深度學習的工作。年,與和共同撰寫了,這本因封面被人們親切地稱為花書的深度學習奠基之作,也成為了人工智能領域不可不讀的圣經級教材。在年底,開始為深度學習的產業孵化助力。 蒙特利爾大學計算機科學系教授 Yoshua Bengio從法國來到加拿大的時候,Yoshua Bengio只有12歲。他在加拿大度過了學生時代的大部分時光,在麥吉爾大學的校園中接受了從本科到博士的完整...
閱讀 2623·2023-04-26 00:07
閱讀 2432·2021-11-15 11:37
閱讀 639·2021-10-19 11:44
閱讀 2163·2021-09-22 15:56
閱讀 1717·2021-09-10 10:50
閱讀 1497·2021-08-18 10:21
閱讀 2565·2019-08-30 15:53
閱讀 1630·2019-08-30 11:11