arXiv上五篇頂尖深度學(xué)習(xí)論文都講了些什么？

WilsonLiu95 發(fā)布于2019-04-25 18:00 / 2351人閱讀

摘要：自從年深秋，他開始在上撰寫并公開分享他感興趣的機(jī)器學(xué)習(xí)論文。本文選取了上篇閱讀注釋的機(jī)器學(xué)習(xí)論文筆記。希望知名專家注釋的深度學(xué)習(xí)論文能使一些很復(fù)雜的概念更易于理解。主要講述的是奧德賽因?yàn)榧づ撕Ｉ癫ㄙ惗喽兄聻?zāi)禍。

Hugo Larochelle博士是一名謝布克大學(xué)機(jī)器學(xué)習(xí)的教授，社交媒體研究科學(xué)家、知名的神經(jīng)網(wǎng)絡(luò)研究人員以及深度學(xué)習(xí)狂熱愛好者。自從2015年深秋，他開始在arXiv上撰寫并公開分享他感興趣的機(jī)器學(xué)習(xí)論文。在這篇文章發(fā)布之前，他已經(jīng)分享了10篇論文筆記。

本文選取了arXiv上5篇Hugo閱讀注釋的機(jī)器學(xué)習(xí)論文筆記。為使我們更好地理解這些內(nèi)容，每篇論文介紹了摘要并附上了Hugo的筆記。希望知名專家注釋的深度學(xué)習(xí)論文能使一些很復(fù)雜的概念更易于理解。

1.非回溯遞歸網(wǎng)絡(luò)訓(xùn)練

Training recurrent networks online without backtracking

作者：Yann Ollivier、Guillaume Charpiat

arXiv上發(fā)布日期：2015年7月28日

摘要（摘錄）：我們引入「非回溯」算法來訓(xùn)練類似遞歸神經(jīng)網(wǎng)絡(luò)這樣的動(dòng)態(tài)系統(tǒng)的參數(shù)。這個(gè)算法在線上、無內(nèi)存的條件下運(yùn)行，因此不需要反向時(shí)間傳播，有可拓展性，避免了保持當(dāng)前狀態(tài)參數(shù)的全向梯度所需要的大量的計(jì)算和內(nèi)存成本。[…]先前在簡(jiǎn)單任務(wù)上的測(cè)試表明，相對(duì)于保持全向梯度，引入梯度隨機(jī)近似算法后，似乎并沒有給軌跡引入過多噪聲，可以確認(rèn)具有優(yōu)良性能和保證在卡爾曼版本的非回溯算法上的可拓展性。

Hugo的注釋（摘錄）：

RNN線上訓(xùn)練是一個(gè)宏大而未解決的問題。

人們現(xiàn)今使用的方法是把回溯截?cái)酁閹讉€(gè)過去的步長(zhǎng)，這更多是一種探索性的做法。

這篇論文在原則方法基礎(chǔ)上更近了一步。我很欣賞方程式7的「秩一技巧」，很精致可愛！這也是這個(gè)方法的中心，把這些點(diǎn)聯(lián)系到了一起，干得真好！

作者介紹這項(xiàng)工作只是初步的，他們確實(shí)并沒有和截?cái)嗷厮荼容^。我迫切希望他們?cè)谖磥淼墓ぷ髦凶鱿卤容^，并且，我不贊同『隨機(jī)梯度下降理論在此處可以應(yīng)用到』這個(gè)論點(diǎn)。

2.基于梯形網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)

Semi-Supervised Learning with Ladder Network

作者：Antti Rasmus、Harri Valpola、Mikko Honkala、Mathias Berglund,、Tapani Raiko

arXiv上發(fā)布日期：2015年7月9日

摘要：在深度神經(jīng)網(wǎng)絡(luò)中，我們把監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)結(jié)合到一起。我們首先訓(xùn)練提出的模型在使用反向傳播后可以同時(shí)最小化監(jiān)督和無監(jiān)督消耗函數(shù)，從而省去了逐層預(yù)先訓(xùn)練步驟的必要。我們的工作建立在Valpola2015年提出的梯形網(wǎng)絡(luò)基礎(chǔ)上，我們把這個(gè)模型和監(jiān)督結(jié)合起來進(jìn)行了拓展。我們展示了拓展模型在各種任務(wù)中：半監(jiān)督條件下MNIST和CIFAR-10分類，半監(jiān)督和全標(biāo)簽條件下的定量MNIST的排列過程，都達(dá)到藝術(shù)級(jí)性能。

Hugo的注釋（摘錄）：

我認(rèn)為，性能是這篇論文最令人興奮的。在MNIST上，僅僅通過100個(gè)標(biāo)簽樣本，它達(dá)到1.13%的錯(cuò)誤率。這與訓(xùn)練集上訓(xùn)練的堆疊去噪自編碼的性能相媲美（盡管它出現(xiàn)在這篇文章使用的ReLUs和批標(biāo)準(zhǔn)化之前）！盡管應(yīng)用到許多標(biāo)簽的數(shù)據(jù)集的深度學(xué)習(xí)進(jìn)展并不依賴任何無監(jiān)督學(xué)習(xí)（不像在2000-2010年中期深度學(xué)習(xí)剛開始時(shí)），這篇論文確認(rèn)了深度學(xué)習(xí)中一個(gè)當(dāng)前思路，即無監(jiān)督學(xué)習(xí)可能對(duì)半監(jiān)督條件下低標(biāo)簽數(shù)據(jù)的成功起著關(guān)鍵作用。

不幸的是，作者披露實(shí)驗(yàn)中存在一個(gè)很小的問題：雖然他們使用很少的標(biāo)簽樣本來訓(xùn)練，在驗(yàn)證集中模型選擇的確使用了1萬(wàn)個(gè)標(biāo)簽。這的確很不現(xiàn)實(shí)。

3.面向基于神經(jīng)網(wǎng)絡(luò)的分析

Towards Neural Network-based Reasoning

作者：Baolin Peng,、Zhengdong Lu、 Hang Li、Kam-Fai Wong

arXiv上發(fā)布日期：2015年8月22日

摘要（摘錄）：我們建議推出神經(jīng)推理器，這是一個(gè)基于神經(jīng)網(wǎng)絡(luò)的推理自然語(yǔ)言的框架。只要給定一個(gè)問題，神經(jīng)推理器能根據(jù)多種支持的事實(shí)進(jìn)行推斷并以特殊的方式找到答案。神經(jīng)推理器具備：1）一個(gè)特別的互動(dòng)池機(jī)制，允許它檢驗(yàn)多重事實(shí)，2）一個(gè)深度架構(gòu)，允許它在推理作業(yè)中模化復(fù)雜的邏輯關(guān)系。假定問題和事實(shí)并不存在特殊的結(jié)構(gòu)，神經(jīng)推斷器能夠容納不同類型的推斷和不同的語(yǔ)言表達(dá)形式。[…]經(jīng)驗(yàn)研究表明，在兩種不同人工作業(yè)上（定位和尋路），神經(jīng)推斷器能在很大程度上超越現(xiàn)有神經(jīng)推斷系統(tǒng)。

Hugo的注釋（摘錄）：

在我看來，這篇論文最有趣的方面可能是證明通過使用一些從屬任務(wù)，比如無監(jiān)督的“起點(diǎn)”，可以顯著提高在尋路任務(wù)上的表現(xiàn)。對(duì)我來說最令人興奮的莫過于這篇論文中強(qiáng)調(diào)的，未來可能極其光明的研究方向。

我也欣賞文中模型展示的方式。理解模型并沒有花費(fèi)我太多的時(shí)間，實(shí)際上我發(fā)現(xiàn)他比記憶網(wǎng)絡(luò)模型更易于消化，盡管這兩個(gè)模型很相似。我認(rèn)為這個(gè)模型確實(shí)比記憶模型更簡(jiǎn)單點(diǎn)，這很好。論文還提出這個(gè)問題的另一種解決辦法，這個(gè)方法里不僅問題表征會(huì)隨著正向傳播更新，事實(shí)表征也會(huì)更新。

4.基于遞歸神經(jīng)網(wǎng)絡(luò)的定時(shí)采樣序列預(yù)測(cè)

Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks

作者：Samy Bengio、Oriol Vinyals、Navdeep Jaitly、Noam Shazeer

arXiv上發(fā)布日期：2015年6月9日

摘要（摘錄）：我們可以訓(xùn)練周期神經(jīng)網(wǎng)絡(luò)，使它在給予一定輸入時(shí)產(chǎn)生符號(hào)序列，正如機(jī)器翻譯和圖像識(shí)別的結(jié)果例證的一樣。當(dāng)前訓(xùn)練它們的方法包括，在給定當(dāng)前（遞歸）狀態(tài)和先前符號(hào)時(shí)，較大化每個(gè)符號(hào)序列的相似性，。在推導(dǎo)上，未知的先前符號(hào)被模型產(chǎn)生的符號(hào)代替。訓(xùn)練和推導(dǎo)的內(nèi)容不符會(huì)產(chǎn)生誤差，誤差會(huì)隨著產(chǎn)生的序列迅速累積。我們提出了一個(gè)課程學(xué)習(xí)策略，從一個(gè)完全引導(dǎo)的方案，柔和過度到不完全引導(dǎo)方案，前者完全使用正確的前符號(hào)，后者主要使用系統(tǒng)自己生成的符號(hào)。一些序列預(yù)測(cè)作業(yè)試驗(yàn)顯示這個(gè)方法可帶來很大改善。

Hugo的注釋（摘錄）：

超愛這篇論文。它甄別到目前序列預(yù)測(cè)訓(xùn)練方法的一個(gè)重要缺點(diǎn)，最重要的是，同時(shí)提出了一個(gè)簡(jiǎn)單有效的解決方案。我也相信這個(gè)方法在谷歌圖像識(shí)別生成贏家系統(tǒng)以及微軟COCO競(jìng)賽中起著不可忽視的作用。

關(guān)于定時(shí)采樣有助的原因，我的另一個(gè)理解是：ML訓(xùn)練并不會(huì)告知模型自己產(chǎn)生的誤差的相對(duì)質(zhì)量。就ML而言，把高概率放在一個(gè)僅有一個(gè)錯(cuò)誤令牌的輸出序列和把相同概率放在一個(gè)有全部錯(cuò)誤令牌的序列上同樣糟糕。然而就圖像識(shí)別來說，輸出僅有一個(gè)錯(cuò)字的語(yǔ)句明顯比有許多錯(cuò)字的語(yǔ)句（某種也反映在性能矩陣的東西，比如BLEU）更為可取。

通過訓(xùn)練模型在面對(duì)自身錯(cuò)誤的系統(tǒng)穩(wěn)定性，定時(shí)采樣可確保誤差不會(huì)累積，并且（幫助系統(tǒng)）做出八九不離十的預(yù)測(cè)。

5.LSTM：一個(gè)空間搜索奧德賽

LSTM_ A Search Space Odyssey

作者：Klaus Treff、Rupesh Kumar Srivastava、Jan Koutník、Bas R. Steunebrink、 Jürgen Schmidhuber

arXiv上發(fā)布日期：2015年5月13日

譯者按：奧德賽是古希臘史詩(shī)中重要一部。主要講述的是奧德賽因?yàn)榧づ撕Ｉ癫ㄙ惗喽兄聻?zāi)禍。最后利用智慧歷經(jīng)重重磨難得以回家的故事。文中指富有偉大意義卻艱辛的科學(xué)探索之旅。

摘要（摘錄）：本文在3個(gè)代表性任務(wù)測(cè)試：語(yǔ)音識(shí)別，手寫字體識(shí)別和復(fù)調(diào)音樂建模上，首次大規(guī)模使用8LSTM變量分析。使用隨機(jī)搜索，多帶帶優(yōu)化每個(gè)作業(yè)的所有LSTM變量的超參數(shù)，并且使用強(qiáng)大的fANOVA結(jié)構(gòu)評(píng)估它們的重要性。我們一共總結(jié)了5400次試驗(yàn)運(yùn)行結(jié)果（CPU時(shí)間大概15年），這使我們的研究成為同類LSTM網(wǎng)絡(luò)研究中規(guī)模較大的。我們的結(jié)果表明，在標(biāo)準(zhǔn)LSTM架構(gòu)上沒有一種變量能顯著提高，并且可以證明忘記門和激勵(lì)函數(shù)的輸出結(jié)果是它最重要的部分。我們進(jìn)一步觀察到這些被研究的超參數(shù)是實(shí)質(zhì)上是獨(dú)立的，并在為它們的有效調(diào)整制定了指導(dǎo)方針。

譯者注：如圖所示是一個(gè)LSTM簡(jiǎn)易版模型。其中input gate輸入門/output gate輸出門負(fù)責(zé)管理輸入及輸出數(shù)值。forget gate忘記門負(fù)責(zé)選擇性刪除一些系統(tǒng)以前記住的數(shù)值來確保可以更好記住近期數(shù)值。圖片來自CSDN

Hugo的注釋（摘錄）：

這是一篇很有用的（幫你）熱身準(zhǔn)備的文章。對(duì)任何想要學(xué)習(xí)LSTMs的人，我都會(huì)推薦這篇文章必讀。首先，我發(fā)現(xiàn)它對(duì)LSTMs最初的發(fā)展史的描述很有趣并且很明了。但是，最重要的是，它展現(xiàn)了LSTMs一個(gè)很實(shí)用的圖景，這不僅可以為初次使用LSTMs的奠定優(yōu)良基礎(chǔ)，還可以作為一個(gè)對(duì)LSTM每一部分重要性的很有見地的（數(shù)據(jù)支撐的）觀點(diǎn)闡述。

基于fANONA的分析（目前我還不了解）很精煉。可能最讓我震驚的發(fā)現(xiàn)是，勢(shì)頭的幫助實(shí)際上看起來并不大。研究超參數(shù)之間的二階互動(dòng)構(gòu)思很巧妙（通過表明同時(shí)調(diào)整學(xué)習(xí)頻率和隱藏層可能并不重要，這很有見地）。圖4中的描述陳列出學(xué)習(xí)頻率/隱藏層大小/輸入噪聲變量和性能/訓(xùn)練時(shí)間之間可能存在的關(guān)系（帶有不確定性）也是很有用的信息。

前向傳播

后向傳播

譯者注：

輸入層（Input layer），眾多神經(jīng)元（Neuron）接受大量非線形輸入信息。輸入的信息稱為輸入向量。

輸出層（Output layer），信息在神經(jīng)元鏈接中傳輸、分析、權(quán)衡，形成輸出結(jié)果。輸出的信息稱為輸出向量。

隱藏層（Hidden layer），簡(jiǎn)稱“隱層”，是輸入層和輸出層之間眾多神經(jīng)元和鏈接組成的各個(gè)層面。隱層可以有多層，習(xí)慣上會(huì)用一層。隱層的節(jié)點(diǎn)（神經(jīng)元）數(shù)目不定，但數(shù)目越多神經(jīng)網(wǎng)絡(luò)的非線性越顯著，從而神經(jīng)網(wǎng)絡(luò)的強(qiáng)健性