摘要:就像在權(quán)重擾動中,而不同于串擾的是,最小的全局協(xié)調(diào)是必須的每個神經(jīng)元僅需要接收指示全局成本函數(shù)的反饋信號。在深度強化學(xué)習中比如可否使用不可微分的目標函數(shù)呢值得探索相反,反向傳播通過基于系統(tǒng)的分層結(jié)構(gòu)計算成本函數(shù)對每個權(quán)重的靈敏度來工作。
2. 大腦能夠進行成本函數(shù)優(yōu)化
許多機器學(xué)習方法(如典型的監(jiān)督式學(xué)習)是基于有效地函數(shù)優(yōu)化,并且,使用誤差的反向傳播(Werbos, 1974; Rumelhart et al., 1986)來計算任意參數(shù)化函數(shù)的梯度的能力是一個很關(guān)鍵的突破,這在下文我們將詳細描述。在假設(shè)1中,我們聲稱大腦也是,至少部分是,優(yōu)化機(optimization machine,指具有優(yōu)化函數(shù)能力的裝置)。但是,究竟說大腦可以優(yōu)化成本函數(shù)是什么意思呢?畢竟,許多自然界中的許多過程都可以被視為優(yōu)化。例如,物理定律通常被認為是最小化一個動作的功能,而進化優(yōu)化的是復(fù)制基因(replicator)在長時間尺度上的適應(yīng)性。要明確的是,我們的主張是:(a)大腦在學(xué)習期間具有強大的信用分配機制,允許它通過調(diào)整每個神經(jīng)元的屬性以提升全局輸出結(jié)果,以此來優(yōu)化多層網(wǎng)絡(luò)中的全局目標函數(shù),以及(b)大腦具有確定哪些成本函數(shù)對應(yīng)其哪些子網(wǎng)絡(luò)的機制,即,成本函數(shù)是高度可調(diào)的,這是由進化逐步形成并與動物的生理需求相匹配。因此,大腦使用成本函數(shù)作為其發(fā)展的關(guān)鍵驅(qū)動力,就像現(xiàn)代機器學(xué)習系統(tǒng)一樣。
可能部分讀者在系列一中對credit assignment(信用分配)還存在疑惑,這里解釋一下:信用分配問題主要考慮的是如何確定系統(tǒng)的整體性能的成功是由系統(tǒng)組件的各種貢獻哪些部分決定的(Minsky,1963),這是人工智能先驅(qū)Marvin Minsky提出的,本質(zhì)上應(yīng)屬于對目標函數(shù)優(yōu)化的一部分,實際上神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)節(jié)的機制就是一直信用分配。
為了理解這些主張的基礎(chǔ),我們現(xiàn)在必須深入了解大腦如何有效地執(zhí)行大型多層網(wǎng)絡(luò)中的信用分配的細節(jié),以優(yōu)化更為復(fù)雜的函數(shù)。我們認為大腦使用幾種不同類型的優(yōu)化來解決不同的問題。在一些結(jié)構(gòu)中,其可以使用遺傳基因預(yù)先規(guī)定的神經(jīng)回路去解決僅需要基于數(shù)據(jù)即可快速學(xué)習的問題,或者可以利用局部優(yōu)化以避免通過多層神經(jīng)元來分配信用的需要。它還可以使用許多后天發(fā)展出來的電路結(jié)構(gòu)(神經(jīng)回路),允許其通過多層神經(jīng)元網(wǎng)絡(luò)執(zhí)行誤差的反向傳播(這里誤差來至于網(wǎng)絡(luò)實際輸出與真實期望值之間的差距),這個過程使用生物學(xué)上實際存在的機制是可以實現(xiàn)的 - 曾經(jīng)一度被廣泛認為是不具有生物學(xué)可解釋性的(Crick, 1989; Stork, 1989)。潛在的此類機制包括:以常規(guī)的方式反向傳播誤差導(dǎo)數(shù)(gradient,梯度)的神經(jīng)電路,以及提供對梯度進行有效估計(gradient approximation,最近也有突破,避免了直接從目標函數(shù)開始求導(dǎo)計算)的神經(jīng)回路,即快速計算成本函數(shù)對于任何給定連接權(quán)重的近似梯度。最后,大腦可以利用某些特定的神經(jīng)生理學(xué)方面的算法,例如神經(jīng)脈沖的時間依賴可塑性(spike timing dependent plasticity)、樹突計算(dendritic computation)、局部興奮性抑制網(wǎng)絡(luò)或其他性質(zhì),以及更高級別大腦系統(tǒng)的綜合性質(zhì)。這樣的機制可以允許學(xué)習能力甚至超過當前基于反向傳播的網(wǎng)絡(luò)。
2.1 無多層信用分配的局部自組織與優(yōu)化
不是所有的學(xué)習過程都需要一個通用的優(yōu)化機制,如梯度下降。許多關(guān)于神經(jīng)皮質(zhì)的理論(George and Hawkins, 2009; Kappel et al., 2014)強調(diào)潛在的自組織和無監(jiān)督的學(xué)習屬性,可以消除多層反向傳播的需要。 根據(jù)突觸前后活動的相關(guān)性來調(diào)整權(quán)重的神經(jīng)元Hebbian可塑性理論已經(jīng)被很好的確立。Hebbian可塑性(Miller and MacKay, 1994)有很多版本,例如,加入非線性(Brito and Gerstner, 2016),可以引發(fā)神經(jīng)元之間的不同形式的相關(guān)和競爭,導(dǎo)致自我組織(self-organized)的眼優(yōu)勢柱(ocular dominance columns)、自組織圖和定向列形成(Miller et al., 1989; Ferster and Miller, 2000)。通常這些類型的局部自組織也可以被視為優(yōu)化成本函數(shù):例如,某些形式的Hebbian可塑性可以被視為提取輸入的主要分量,這最小化重建誤差(Pehlevan and Chklovskii, 2015) 。
Auto-encoders 這類人工神經(jīng)網(wǎng)絡(luò)就是上述功能的代表。
為了生成復(fù)雜的具有時間關(guān)聯(lián)的學(xué)習模式,大腦還可以實現(xiàn)任何與不需要通過多層網(wǎng)絡(luò)的完全反向傳播等效的其他形式的學(xué)習。例如,“液體狀態(tài)機”(Maass et al., 2002)或“回波狀態(tài)機(echo state)”(Jaeger and Haas, 2004)是隨機連接的復(fù)現(xiàn)網(wǎng)絡(luò)(recurrent net),其可形成隨機的基礎(chǔ)濾波器集合(也稱為“庫濾波器),并利用可調(diào)諧的讀出層權(quán)重來學(xué)習。體現(xiàn)混沌(chaotic)和自發(fā)動力(spontaneous dynamics)的變體甚至可以通過將輸出層結(jié)果反饋到網(wǎng)絡(luò)中并抑制混沌活動(chaotic activity )來訓(xùn)練(Sussillo and Abbott, 2009)。僅學(xué)習讀出層使得優(yōu)化問題更簡單(實際上,等價于監(jiān)督學(xué)習的回歸)。此外,回波狀態(tài)網(wǎng)絡(luò)可以通過強化學(xué)習以及監(jiān)督學(xué)習來訓(xùn)練(Bush, 2007; Hoerzer et al., 2014)。隨機非線性濾波器的儲層(reservoirs)是對許多神經(jīng)元的多樣化、高維度、混合選擇性調(diào)諧特性的一種解釋,例如這種現(xiàn)象存在與大腦前額葉皮質(zhì)中(Enel et al., 2016)。其他學(xué)習規(guī)則去僅修改隨機網(wǎng)絡(luò)內(nèi)部的一部分突觸的變體,正發(fā)展成為生物短期記憶(working memory)和序列生成的模型(Rajan et al., 2016)。
這段讀起來非常吃力,但值得注意的是其中提到的只對輸出層進行無監(jiān)督訓(xùn)練的方式,是否一定能使優(yōu)化變得簡單呢?可以嘗試做實驗驗證一下。另外,局部自組織,也可理解為“局部無監(jiān)督學(xué)習”。
2.2 優(yōu)化的生物學(xué)實現(xiàn)
我們認為上述局部自組織的機制可能不足以解釋大腦的強大學(xué)習表現(xiàn)(Brea and Gerstner, 2016)。 為了詳細說明在大腦中需要有效的梯度計算方法,我們首先將反向傳播置于其計算的上下文環(huán)境中(Hinton, 1989; Baldi and Sadowski, 2015)。 然后我們將解釋大腦如何合理地實現(xiàn)梯度下降的近似。
這里厲害了,gradient approximation (梯度近似)是深度學(xué)習里最迫切需要解決的問題,因為這樣將大大減少對計算資源的消耗。
2.2.1 多層神經(jīng)網(wǎng)絡(luò)對高效梯度下降的需求
執(zhí)行成本函數(shù)優(yōu)化的最簡單的機制有時被稱為“旋轉(zhuǎn)”算法,或更技術(shù)上稱為“串擾”。這種機制通過以小增量擾動(即“twiddling”) 網(wǎng)絡(luò)中的一個權(quán)重,以及通過測量網(wǎng)絡(luò)性能(對比成本函數(shù)的變化,相對于未受干擾的權(quán)重)來驗證改進。 如果改進是顯著的,擾動被用作權(quán)重的變化方向; 否則,權(quán)重沿相反方向改變(或根本不改變)。 因此串行擾動是對成本“coordinate descent”的方法,但是它是緩慢的并且需要全局協(xié)調(diào):每個突觸按順序被擾動而要求其他保持固定。
總的來說,twiddling思想是比較簡單的,但是在全局范圍實現(xiàn)卻很困難,并不是一個可行的解決方案。
另一方面,自然地我們會想到全局權(quán)重擾動(或平行擾動)即同時擾動網(wǎng)絡(luò)中的所有權(quán)重。 它能夠優(yōu)化小型網(wǎng)絡(luò)以執(zhí)行任務(wù),但通常引發(fā)高方差。 也就是說,梯度方向的測量是有噪聲的,并且其在不同擾動之間劇烈變化,因為權(quán)重對成本函數(shù)的影響被所有其他權(quán)重的變化掩蔽,然而只有一個標量反饋信號指示成本的變化。 對于大型網(wǎng)絡(luò),全局權(quán)重擾動是非常低效的。 事實上,如果時間測量計數(shù)網(wǎng)絡(luò)從輸入到輸出傳播信息的次數(shù),則并行和串行擾動以大致相同的速率學(xué)習(Werfel et al., 2005)。
上述的過程,在反向傳播過程中形成了一對多(目標函數(shù)標量變化對應(yīng)多種可能的權(quán)重變化)的映射關(guān)系,這是任何一般意義上的函數(shù)都無法擬合的(信息不能被完全學(xué)習),因為這種映射不屬于函數(shù)。
一些效率增益可以通過擾亂神經(jīng)活動而不是突觸權(quán)重來實現(xiàn),遵循神經(jīng)突觸的任何長程效應(yīng)通過神經(jīng)元介導(dǎo)的事實。就像在權(quán)重擾動中,而不同于串擾的是,最小的全局協(xié)調(diào)是必須的:每個神經(jīng)元僅需要接收指示全局成本函數(shù)的反饋信號。在假定所有神經(jīng)元或所有權(quán)重分別被擾動并且它們在相同頻率處被擾動的假設(shè)下,節(jié)點擾動梯度估計的方差遠小于權(quán)重擾動的方差。在這種情況下,節(jié)點擾動的方差與網(wǎng)絡(luò)中的細胞數(shù)量成比例,而不是突觸的數(shù)量。
所有這些方法都是緩慢的,不是由于對所有權(quán)重的串行迭代所需的時間復(fù)雜度大,就是對于低信噪比梯度估計的平均所需的時間復(fù)雜度大。然而,他們的信譽(credit),這些方法都不需要超過關(guān)于局部活動和單一全局成本信號的知識。大腦中的真實神經(jīng)回路似乎具有編碼與實現(xiàn)那些算法相關(guān)的信號的機制(例如,可擴散神經(jīng)調(diào)節(jié)器)。在許多情況下,例如在強化學(xué)習中,基于未知環(huán)境的交互計算的成本函數(shù)不能直接進行微分,并且代理(agent,智能代理,強化學(xué)習中的術(shù)語)不得不部署聰明的twiddling以在系統(tǒng)的某個級別進行探索(Williams, 1992)。
這個方法對于不可微的目標函數(shù)是非常有用的,在我的知識范圍內(nèi),目前還沒有發(fā)現(xiàn)深度學(xué)習有對不可微分的目標函數(shù)探索過。但如上文所述,這是非常緩慢的,可能也只適合在強化學(xué)習(reinforcement learning)中使用。在深度強化學(xué)習中(比如AlphaGo)可否使用不可微分的目標函數(shù)呢?值得探索
相反,反向傳播通過基于系統(tǒng)的分層結(jié)構(gòu)計算成本函數(shù)對每個權(quán)重的靈敏度來工作。 相對于最后一層的成本函數(shù)的導(dǎo)數(shù)可以用于計算關(guān)于倒數(shù)第二層的成本函數(shù)的導(dǎo)數(shù),等等,一直到最早的輸入層。 可以快速計算反向傳播,并且對于單個輸入 - 輸出模式,其在其梯度估計中不存在方差(variance = 0)。 反向傳播的梯度對于大型系統(tǒng)而言比對于小系統(tǒng)沒有更多的噪聲,因此可以使用強大計算能力有效地訓(xùn)練深而寬的架構(gòu)。
這段基本解釋了目前的深度神經(jīng)網(wǎng)絡(luò)為什么使用BP可以被有效訓(xùn)練。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/4709.html
摘要:例如,是一些神經(jīng)元的特征,其中突觸權(quán)重變化的符號取決于突觸前后的較精確至毫秒量級相對定時。,是大腦自身調(diào)整其神經(jīng)元之間的連接強度的生物過程。從他博士期間就開始研究至今,目前可以說深度學(xué)習占領(lǐng)著機器學(xué)習的半壁江山,而則是深度學(xué)習的核心。 上次說到誤差梯度的反向傳播(Backpropagation),這次咱們從這繼續(xù)。需要說明的是,原文太長,有的地方會有些冗長啰嗦,所以后面的我會選擇性地進行翻譯...
摘要:如今在機器學(xué)習中突出的人工神經(jīng)網(wǎng)絡(luò)最初是受神經(jīng)科學(xué)的啟發(fā)。雖然此后神經(jīng)科學(xué)在機器學(xué)習繼續(xù)發(fā)揮作用,但許多主要的發(fā)展都是以有效優(yōu)化的數(shù)學(xué)為基礎(chǔ),而不是神經(jīng)科學(xué)的發(fā)現(xiàn)。 開始之前看一張有趣的圖 - 大腦遺傳地圖:Figure 0. The Genetic Geography of the Brain - Allen Brain Atlas成年人大腦結(jié)構(gòu)上的基因使用模式是高度定型和可再現(xiàn)的。 Fi...
摘要:根據(jù)百度的說法,這是全球首次將深度學(xué)習領(lǐng)域技術(shù)應(yīng)用在客戶端,獨創(chuàng)了深度神經(jīng)網(wǎng)絡(luò)查殺技術(shù)。在過去,吳恩達說,百度用神經(jīng)網(wǎng)絡(luò)來幫助偵測廣告。 吳恩達拿起他的手機,打開了臉優(yōu) app。他現(xiàn)在正位于硅谷公司的研究室。在辦公桌邊吃飯,談話內(nèi)容很自然地也涉及到人工智能。他是百度的首席科學(xué)家,同時也是斯坦福大學(xué)計算機系的教授。在其他搜索引擎仍在發(fā)展時,他就曾幫助谷歌啟動了腦計劃,現(xiàn)在他在百度從事相似的人工...
摘要:深度學(xué)習在過去的幾年里取得了許多驚人的成果,均與息息相關(guān)。機器學(xué)習進階筆記之一安裝與入門是基于進行研發(fā)的第二代人工智能學(xué)習系統(tǒng),被廣泛用于語音識別或圖像識別等多項機器深度學(xué)習領(lǐng)域。零基礎(chǔ)入門深度學(xué)習長短時記憶網(wǎng)絡(luò)。 多圖|入門必看:萬字長文帶你輕松了解LSTM全貌 作者 | Edwin Chen編譯 | AI100第一次接觸長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)時,我驚呆了。原來,LSTM是神...
閱讀 1436·2021-09-22 16:04
閱讀 2800·2019-08-30 15:44
閱讀 887·2019-08-30 15:43
閱讀 765·2019-08-29 15:24
閱讀 1845·2019-08-29 14:07
閱讀 1134·2019-08-29 12:30
閱讀 1729·2019-08-29 11:15
閱讀 2740·2019-08-28 18:08