深度學習-LeCun、Bengio和Hinton的聯合綜述（下）

xorpay 發布于2019-04-25 17:59 / 3157人閱讀

摘要：接上文深度學習和的聯合綜述上卷積神經網絡卷積神經網絡被設計用來處理到多維數組數據的，比如一個有個包含了像素值圖像組合成的一個具有個顏色通道的彩色圖像。近年來，卷積神經網絡的一個重大成功應用是人臉識別。

三大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton在深度學習領域的地位無人不知。為紀念人工智能提出60周年，的《Nature》雜志專門開辟了一個“人工智能 + 機器人”專題，發表多篇相關論文，其中包括了Yann LeCun、Yoshua Bengio和Geoffrey Hinton首次合作的這篇綜述文章“Deep Learning”。本文為該綜述文章中文譯文的下半部分，詳細介紹了CNN、分布式特征表示、RNN及其不同的應用，并對深度學習技術的未來發展進行了展望。

接上文：深度學習-LeCun、Bengio和Hinton的聯合綜述（上）

卷積神經網絡

卷積神經網絡被設計用來處理到多維數組數據的，比如一個有3個包含了像素值2-D圖像組合成的一個具有3個顏色通道的彩色圖像。很多數據形態都是這種多維數組的：1D用來表示信號和序列包括語言，2D用來表示圖像或者聲音，3D用來表示視頻或者有聲音的圖像。卷積神經網絡使用4個關鍵的想法來利用自然信號的屬性：局部連接、權值共享、池化以及多網絡層的使用。

圖2 卷積神經網絡內部

一個典型的卷積神經網絡結構（如圖2）是由一系列的過程組成的。最初的幾個階段是由卷積層和池化層組成，卷積層的單元被組織在特征圖中，在特征圖中，每一個單元通過一組叫做濾波器的權值被連接到上一層的特征圖的一個局部塊，然后這個局部加權和被傳給一個非線性函數，比如ReLU。在一個特征圖中的全部單元享用相同的過濾器，不同層的特征圖使用不同的過濾器。使用這種結構處于兩方面的原因。首先，在數組數據中，比如圖像數據，一個值的附近的值經常是高度相關的，可以形成比較容易被探測到的有區分性的局部特征。其次，不同位置局部統計特征不太相關的，也就是說，在一個地方出現的某個特征，也可能出現在別的地方，所以不同位置的單元可以共享權值以及可以探測相同的樣本。在數學上，這種由一個特征圖執行的過濾操作是一個離線的卷積，卷積神經網絡也是這么得名來的。

卷積層的作用是探測上一層特征的局部連接，然而池化層的作用是在語義上把相似的特征合并起來，這是因為形成一個主題的特征的相對位置不太一樣。一般地，池化單元計算特征圖中的一個局部塊的較大值，相鄰的池化單元通過移動一行或者一列來從小塊上讀取數據，因為這樣做就減少的表達的維度以及對數據的平移不變性。兩三個這種的卷積、非線性變換以及池化被串起來，后面再加上一個更多卷積和全連接層。在卷積神經網絡上進行反向傳播算法和在一般的深度網絡上是一樣的，可以讓所有的在過濾器中的權值得到訓練。

深度神經網絡利用的很多自然信號是層級組成的屬性，在這種屬性中高級的特征是通過對低級特征的組合來實現的。在圖像中，局部邊緣的組合形成基本圖案，這些圖案形成物體的局部，然后再形成物體。這種層級結構也存在于語音數據以及文本數據中，如電話中的聲音，因素，音節，文檔中的單詞和句子。當輸入數據在前一層中的位置有變化的時候，池化操作讓這些特征表示對這些變化具有魯棒性。

卷積神經網絡中的卷積和池化層靈感直接來源于視覺神經科學中的簡單細胞和復雜細胞。這種細胞的是以LNG-V1-V2-V4-IT這種層級結構形成視覺回路的。當給一個卷積神經網絡和猴子一副相同的圖片的時候，卷積神經網絡展示了猴子下顳葉皮質中隨機160個神經元的變化。卷積神經網絡有神經認知的根源，他們的架構有點相似，但是在神經認知中是沒有類似反向傳播算法這種端到端的監督學習算法的。一個比較原始的1D卷積神經網絡被稱為時延神經網絡，可以被用來識別語音以及簡單的單詞。

20世紀90年代以來，基于卷積神經網絡出現了大量的應用。最開始是用時延神經網絡來做語音識別以及文檔閱讀。這個文檔閱讀系統使用一個被訓練好的卷積神經網絡和一個概率模型，這個概率模型實現了語言方面的一些約束。20世紀90年代末，這個系統被用來美國超過10%的支票閱讀上。后來，微軟開發了基于卷積神經網絡的字符識別系統以及手寫體識別系統。20世紀90年代早期，卷積神經網絡也被用來自然圖形中的物體識別，比如臉、手以及人臉識別（face recognition ）。

使用深度卷積網絡進行圖像理解

21世紀開始，卷積神經網絡就被成功的大量用于檢測、分割、物體識別以及圖像的各個領域。這些應用都是使用了大量的有標簽的數據，比如交通信號識別，生物信息分割，面部探測，文本、行人以及自然圖形中的人的身體部分的探測。近年來，卷積神經網絡的一個重大成功應用是人臉識別。

值得一提的是，圖像可以在像素級別進行打標簽，這樣就可以應用在比如自動電話接聽機器人、自動駕駛汽車等技術中。像Mobileye以及NVIDIA公司正在把基于卷積神經網絡的方法用于汽車中的視覺系統中。其它的應用涉及到自然語言的理解以及語音識別中。

圖3 從圖像到文字

盡管卷積神經網絡應用的很成功，但是它被計算機視覺以及機器學習團隊開始重視是在2012年的ImageNet競賽。在該競賽中，深度卷積神經網絡被用在上百萬張網絡圖片數據集，這個數據集包含了1000個不同的類。該結果達到了前所未有的好，幾乎比當時較好的方法降低了一半的錯誤率。這個成功來自有效地利用了GPU、ReLU、一個新的被稱為dropout的正則技術，以及通過分解現有樣本產生更多訓練樣本的技術。這個成功給計算機視覺帶來一個革命。如今，卷積神經網絡用于幾乎全部的識別和探測任務中。最近一個更好的成果是，利用卷積神經網絡結合回饋神經網絡用來產生圖像標題。

如今的卷積神經網絡架構有10-20層采用ReLU激活函數、上百萬個權值以及幾十億個連接。然而訓練如此大的網絡兩年前就只需要幾周了，現在硬件、軟件以及算法并行的進步，又把訓練時間壓縮到了幾小時。

基于卷積神經網絡的視覺系統的性能已經引起了大型技術公司的注意，比如Google、Facebook、Microsoft、IBM，yahoo！、Twitter和Adobe等，一些快速增長的創業公司也同樣如是。

卷積神經網絡很容易在芯片或者現場可編程門陣列（FPGA）中高效實現，許多公司比如NVIDIA、Mobileye、Intel、Qualcomm以及Samsung，正在開發卷積神經網絡芯片，以使智能機、相機、機器人以及自動駕駛汽車中的實時視覺系統成為可能。

分布式特征表示與語言處理

與不使用分布式特征表示（distributed representations ）的經典學習算法相比，深度學習理論表明深度網絡具有兩個不同的巨大的優勢。這些優勢來源于網絡中各節點的權值，并取決于具有合理結構的底層生成數據的分布。首先，學習分布式特征表示能夠泛化適應新學習到的特征值的組合（比如，n元特征就有2n種可能的組合）。其次，深度網絡中組合表示層帶來了另一個指數級的優勢潛能（指數級的深度）。

多層神經網絡中的隱層利用網絡中輸入的數據進行特征學習，使之更加容易預測目標輸出。下面是一個很好的示范例子，比如將本地文本的內容作為輸入，訓練多層神經網絡來預測句子中下一個單詞。內容中的每個單詞表示為網絡中的N分之一的向量，也就是說，每個組成部分中有一個值為1其余的全為0。在第一層中，每個單詞創建不同的激活狀態，或單詞向量（如圖4）。在語言模型中，網絡中其余層學習并轉化輸入的單詞向量為輸出單詞向量來預測句子中下一個單詞，可以通過預測詞匯表中的單詞作為文本句子中下一個單詞出現的概率。網絡學習了包含許多激活節點的、并且可以解釋為詞的獨立特征的單詞向量，正如第一次示范的文本學習分層表征文字符號的例子。這些語義特征在輸入中并沒有明確的表征。而是在利用“微規則”（‘micro-rules’,本文中直譯為：微規則）學習過程中被發掘，并作為一個分解輸入與輸出符號之間關系結構的好的方式。當句子是來自大量的真實文本并且個別的微規則不可靠的情況下，學習單詞向量也一樣能表現得很好。利用訓練好的模型預測新的事例時，一些概念比較相似的詞容易混淆，比如星期二（Tuesday）和星期三（Wednesday），瑞典（Sweden）和挪威（Norway）。這樣的表示方式被稱為分布式特征表示，因為他們的元素之間并不互相排斥，并且他們的構造信息對應于觀測到的數據的變化。這些單詞向量是通過學習得到的特征構造的，這些特征不是由專家決定的，而是由神經網絡自動發掘的。從文本中學習得單詞向量表示現在廣泛應用于自然語言中。

圖4 可視化學習詞向量

特征表示問題爭論的中心介于對基于邏輯啟發和基于神經網絡的認識。在邏輯啟發的范式中，一個符號實體表示某一事物，因為其的屬性與其他符號實體相同或者不同。該符號實例沒有內部結構，并且結構與使用是相關的，至于理解符號的語義，就必須與變化的推理規則合理對應。相反地，神經網絡利用了大量活動載體、權值矩陣和標量非線性化，來實現能夠支撐簡單容易的、具有常識推理的快速“直覺”功能。

在介紹神經語言模型前，簡述下標準方法，其是基于統計的語言模型，該模型沒有使用分布式特征表示。而是基于統計簡短符號序列出現的頻率增長到N（N-grams，N元文法）?？赡艿腘-grams的數字接近于VN，其中V是詞匯表的大小，考慮到文本內容包含成千上萬個單詞，所以需要一個非常大的語料庫。N-grams將每個單詞看成一個原子單元，因此不能在語義相關的單詞序列中一概而論，然而神經網絡語言模型可以，是因為他們關聯每個詞與真是特征值的向量，并且在向量空間中語義相關的詞彼此靠近（圖4）。

遞歸神經網絡

首次引入反向傳播算法時，最令人興奮的便是使用遞歸神經網絡（recurrent neural networks，下文簡稱RNNs）訓練。對于涉及到序列輸入的任務，比如語音和語言，利用RNNs能獲得更好的效果。RNNs一次處理一個輸入序列元素，同時維護網絡中隱式單元中隱式的包含過去時刻序列元素的歷史信息的“狀態向量”。如果是深度多層網絡不同神經元的輸出，我們就會考慮這種在不同離散時間步長的隱式單元的輸出，這將會使我們更加清晰怎么利用反向傳播來訓練RNNs（如圖5，右）。

圖5 遞歸神經網絡

RNNs是非常強大的動態系統，但是訓練它們被證實存在問題的，因為反向傳播的梯度在每個時間間隔內是增長或下降的，所以經過一段時間后將導致結果的激增或者降為零。

由于先進的架構和訓練方式，RNNs被發現可以很好的預測文本中下一個字符或者句子中下一個單詞，并且可以應用于更加復雜的任務。例如在某時刻閱讀英語句子中的單詞后，將會訓練一個英語的“編碼器”網絡，使得隱式單元的最終狀態向量能夠很好地表征句子所要表達的意思或思想。這種“思想向量”（thought vector）可以作為聯合訓練一個法語“編碼器”網絡的初始化隱式狀態（或者額外的輸入），其輸出為法語翻譯首單詞的概率分布。如果從分布中選擇一個特殊的首單詞作為編碼網絡的輸入，將會輸出翻譯的句子中第二個單詞的概率分布，并直到停止選擇為止?？傮w而言，這一過程是根據英語句子的概率分布而產生的法語詞匯序列。這種簡單的機器翻譯方法的表現甚至可以和較先進的（state-of-the-art）的方法相媲美，同時也引起了人們對于理解句子是否需要像使用推理規則操作內部符號表示質疑。這與日常推理中同時涉及到根據合理結論類推的觀點是匹配的。

類比于將法語句子的意思翻譯成英語句子，同樣可以學習將圖片內容“翻譯”為英語句子（如圖3）。這種編碼器是可以在最后的隱層將像素轉換為活動向量的深度卷積網絡（ConvNet）。解碼器與RNNs用于機器翻譯和神經網絡語言模型的類似。近來，已經掀起了一股深度學習的巨大興趣熱潮（參見文獻[86]提到的例子）。

RNNs一旦展開（如圖5），可以將之視為一個所有層共享同樣權值的深度前饋神經網絡。雖然它們的目的是學習長期的依賴性，但理論的和經驗的證據表明很難學習并長期保存信息。

為了解決這個問題，一個增大網絡存儲的想法隨之產生。采用了特殊隱式單元的LSTM（long short-termmemory networks）被首先提出，其自然行為便是長期的保存輸入。一種稱作記憶細胞的特殊單元類似累加器和門控神經元：它在下一個時間步長將擁有一個權值并聯接到自身，拷貝自身狀態的真實值和累積的外部信號，但這種自聯接是由另一個單元學習并決定何時清除記憶內容的乘法門控制的。

LSTM網絡隨后被證明比傳統的RNNs更加有效，尤其當每一個時間步長內有若干層時，整個語音識別系統能夠完全一致的將聲學轉錄為字符序列。目前LSTM網絡或者相關的門控單元同樣用于編碼和解碼網絡，并且在機器翻譯中表現良好。

過去幾年中，幾位學者提出了不同的提案用于增強RNNs的記憶模塊。提案中包括神經圖靈機，其中通過加入RNNs可讀可寫的“類似磁帶”的存儲來增強網絡，而記憶網絡中的常規網絡通過聯想記憶來增強。記憶網絡在標準的問答基準測試中表現良好，記憶是用來記住稍后要求回答問題的事例。

除了簡單的記憶化，神經圖靈機和記憶網絡正在被用于那些通常需要推理和符號操作的任務，還可以教神經圖靈機“算法”。除此以外，他們可以從未排序的輸入符號序列（其中每個符號都有與其在列表中對應的表明優先級的真實值）中，學習輸出一個排序的符號序列?？梢杂柧氂洃浘W絡用來追蹤一個設定與文字冒險游戲和故事的世界的狀態，回答一些需要復雜推理的問題。在一個測試例子中，網絡能夠正確回答15句版的《指環王》中諸如“Frodo現在在哪？”的問題。

深度學習的未來展望

無監督學習對于重新點燃深度學習的熱潮起到了促進的作用，但是純粹的有監督學習的成功蓋過了無監督學習。在本篇綜述中雖然這不是我們的重點，我們還是期望無監督學習在長期內越來越重要。無監督學習在人類和動物的學習中占據主導地位：我們通過觀察能夠發現世界的內在結構，而不是被告知每一個客觀事物的名稱。

人類視覺是一個智能的、基于特定方式的利用小或大分辨率的視網膜中央窩與周圍環繞區域對光線采集成像的活躍的過程。我們期望未來在機器視覺方面會有更多的進步，這些進步來自那些端對端的訓練系統，并結合ConvNets和RNNs，采用增強學習來決定走向。結合了深度學習和增強學習的系統正處在初期，但已經在分類任務中超過了被動視頻系統，并在學習操作視頻游戲中產生了令人印象深刻的效果。

在未來幾年，自然語言理解將是深度學習做出巨大影響的另一個領域。我們預測那些利用了RNNs的系統將會更好地理解句子或者整個文檔，當它們選擇性地學習了某時刻部分加入的策略。

最終，在人工智能方面取得的重大進步將來自那些結合了復雜推理表示學習（representation learning ）的系統。盡管深度學習和簡單推理已經應用于語音和手寫字識別很長一段時間了，我們仍需要通過操作大量向量的新范式來代替基于規則的字符表達式操作。

GPU云服務器云服務器學習的深度和機器學習和深度學習的區別深度學習和機器學習的區別深度強化學習和深度學習

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4312.html

深度學習-LeCun、Bengio和Hinton的聯合綜述（上）

摘要：三大牛和在深度學習領域的地位無人不知。逐漸地，這些應用使用一種叫深度學習的技術。監督學習機器學習中，不論是否是深層，最常見的形式是監督學習。三大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton在深度學習領域的地位無人不知。為紀念人工智能提出60周年，的《Nature》雜志專門開辟了一個人工智能 + 機器人專題，發表多篇相關論文，其中包括了Yann LeC...

DrizzleX 2019-04-25 17:59 評論0 收藏0
那些開創深度學習的大師們

摘要：今年月日收購了基于深度學習的計算機視覺創業公司。這項基于深度學習的計算機視覺技術已經開發完成，正在測試。深度學習的誤區及產品化浪潮百度首席科學家表示目前圍繞存在著某種程度的夸大，它不單出現于媒體的字里行間，也存在于一些研究者之中。在過去的三十年，深度學習運動一度被認為是學術界的一個異類，但是現在， Geoff Hinton（如圖1）和他的深度學習同事，包括紐約大學Yann LeCun和蒙特...

Jackwoo 2019-04-25 18:02 評論0 收藏0
深度學習鼻祖杰夫·辛頓及巨頭們的人才搶奪戰

摘要：毫無疑問，現在深度學習是主流。所以科技巨頭們包括百度等紛紛通過收購深度學習領域的初創公司來招攬人才。這項基于深度學習的計算機視覺技術已經開發完成，正在測試。在過去的三十年，深度學習運動一度被認為是學術界的一個異類，但是現在，?Geoff Hinton（如圖1）和他的深度學習同事，包括紐約大學Yann LeCun和蒙特利爾大學的Yoshua Bengio，在互聯網世界受到前所未有的關注...

YanceyOfficial 2019-04-25 17:57 評論0 收藏0
神經網絡和深度學習簡史第四部分：深度學習終迎偉大復興

摘要：主流機器學習社區對神經網絡興趣寡然。對于深度學習的社區形成有著巨大的影響。然而，至少有兩個不同的方法對此都很有效應用于卷積神經網絡的簡單梯度下降適用于信號和圖像，以及近期的逐層非監督式學習之后的梯度下降。我們終于來到簡史的最后一部分。這一部分，我們會來到故事的尾聲并一睹神經網絡如何在上世紀九十年代末擺脫頹勢并找回自己，也會看到自此以后它獲得的驚人先進成果?！冈噯枡C器學習領域的任何一人，是什...

Simon_Zhou 2019-04-25 18:01 評論0 收藏0
吳恩達眼中的深度學習七雄

摘要：的研究興趣涵蓋大多數深度學習主題，特別是生成模型以及機器學習的安全和隱私。與以及教授一起造就了年始的深度學習復興。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 擁有斯坦福大學計算機視覺博士學位，讀博期間師從現任 Google AI 首席科學家李飛飛，研究卷積神經網絡在計算機視覺、自然語言處理上的應...

MingjunYang 2019-04-25 18:19 評論0 收藏0