Yoshua Bengio最新演講：Attention 讓深度學(xué)習(xí)取得巨大成功

LMou 發(fā)布于2019-04-25 18:01 / 1848人閱讀

摘要：深度學(xué)習(xí)理論在機(jī)器翻譯和字幕生成上取得了巨大的成功。在語音識別和視頻，特別是如果我們使用深度學(xué)習(xí)理論來捕捉多樣的時(shí)標(biāo)時(shí)，會很有用。深度學(xué)習(xí)理論可用于解決長期的依存問題，讓一些狀態(tài)持續(xù)任意長時(shí)間。

Yoshua Bengio，電腦科學(xué)家，畢業(yè)于麥吉爾大學(xué)，在MIT和AT&T貝爾實(shí)驗(yàn)室做過博士后研究員，自1993年之后就在蒙特利爾大學(xué)任教，與 Yann LeCun、 Geoffrey Hinton并稱為“深度學(xué)習(xí)三巨頭”，也是神經(jīng)網(wǎng)絡(luò)復(fù)興的主要的三個(gè)發(fā)起人之一，在預(yù)訓(xùn)練問題、為自動編碼器降噪等自動編碼器的結(jié)構(gòu)問題和生成式模型等等領(lǐng)域做出重大貢獻(xiàn)。他早先的一篇關(guān)于語言概率模型的論文開創(chuàng)了神經(jīng)網(wǎng)絡(luò)做語言模型的先河，啟發(fā)了一系列關(guān)于 NLP 的文章，進(jìn)而在工業(yè)界產(chǎn)生重大影響。此外，他的小組開發(fā)了 Theano 平臺。

下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演講PPT實(shí)錄，由新智元整理翻譯，如果PPT看不過癮，你還可以復(fù)制鏈接直接觀看視頻：https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw

原標(biāo)題：自然語言詞義中的深度學(xué)習(xí)

從ML到AI的三個(gè)關(guān)鍵要素：

1. ?許多&許多的數(shù)據(jù)

2. ?非常靈活的模型

3. ?強(qiáng)大的先驗(yàn)知識，能打破“維度的詛咒”

突破“維度的詛咒”

我們需要在機(jī)器學(xué)習(xí)模型中創(chuàng)建組合詞

正如人類語言會分析組合詞，為組合詞的概念賦予表示和意義

對組合詞意挖掘，在指代的能力上獲得指數(shù)級的增長

分布式表示/嵌入：特征學(xué)習(xí)

深度架構(gòu)：多層次的特征學(xué)習(xí)

先驗(yàn)知識（Prior）：組合性在有效地描述我們所處的世界時(shí)非常有用

深度學(xué)習(xí)理論的進(jìn)展

分布式表示的指數(shù)級優(yōu)勢

深度的指數(shù)級優(yōu)勢

迷思：非凸性 ? 局部最小值

分布式表示的指數(shù)級優(yōu)勢

比起最近鄰法或分類法的模型，學(xué)習(xí)一系列不相互排斥的特征，在數(shù)據(jù)上更有效。

相關(guān)推薦論文

深度的指數(shù)級優(yōu)勢

迷思正在被打破：神經(jīng)網(wǎng)絡(luò)中的局部最小值

凸性并不是必須的

推薦論文

鞍點(diǎn)

局部最小值掌控著低維度，但是鞍點(diǎn)掌控高維度

大多數(shù)的局部最小值都很接近底部（全局最小值誤差）

為什么N-gram 在泛化上表現(xiàn)很差

神經(jīng)語言模型

下一個(gè)挑戰(zhàn)：詞序中豐富的語義表示

捕捉詞義上令人印象深刻的進(jìn)展

更容易的學(xué)習(xí)：非參數(shù)的（查表）

繪制序列來實(shí)現(xiàn)更加豐富和完整的指稱進(jìn)行優(yōu)化的問題

好的測試案例：自動編碼框架的機(jī)器翻譯

深度學(xué)習(xí)中的聚焦（Attention）機(jī)制

考慮一個(gè)輸入（或者中間的）序列或者圖像

考慮一個(gè)高層次的指稱，通過設(shè)置權(quán)重或者每個(gè)輸入位置的概率，正如MLP中所產(chǎn)生的那樣，運(yùn)用到每一個(gè)位置。

聚焦機(jī)制在翻譯、語音、圖像、視頻和存儲中的應(yīng)用

端對端的機(jī)器翻譯

傳統(tǒng)的機(jī)器翻譯：通過相似度的較大化對若干個(gè)模型進(jìn)行獨(dú)立地訓(xùn)練，在N型圖中獲的頂部、底部獲得邏輯回歸。

神經(jīng)語言模型已經(jīng)被證明在普遍化的能力上優(yōu)于N型圖模型。

為什么不訓(xùn)練一個(gè)神經(jīng)翻譯模型，端對端地評估P（目標(biāo)句子|源句子）

2014：神經(jīng)機(jī)器翻譯獲得突破的一年

主要論文

早期的工作

編碼-解碼框架

中間的意義表示=普遍的表示

編碼：從詞的排列到句子代表

解碼：從代表到詞序的分布

輸入側(cè)的雙向RNN

模仿Alex Graves在手寫體上的工作

聚焦：相關(guān)論文和舊論文

軟聚焦VS隨機(jī)硬聚焦

聚焦為基礎(chǔ)的神經(jīng)機(jī)器翻譯

預(yù)測對齊

法語和德語不同的對齊

在純AE模型上的提升

RNNenc：對整個(gè)句子進(jìn)行編碼

RNNsearch：預(yù)測平面圖

BLEU 在全部的測試集中賦分（包括UNK）

周期性網(wǎng)絡(luò)和聚焦機(jī)制下的端對端機(jī)器翻譯

從零開始，一年后的現(xiàn)狀：

英語到德語

從圖像到文字：聚焦模型下的字幕生成

聚焦選擇部分圖像，同時(shí)，生成對應(yīng)描述詞

說出看到的東西

展示、參加和講述：用視覺聚焦來達(dá)到神經(jīng)圖像字幕生成

好的識別

壞的識別

有趣的延伸

用重要性抽樣近似值高效地處理大量的詞匯（最小批的詞=負(fù)面的例子）（Jean al， ACL’2015）

多語種 NMT：共享的編碼器和解碼器，在語言配對中，聚焦機(jī)制是一個(gè)條件

字符層次的NMT

用共享聚焦機(jī)制達(dá)成的多語言神經(jīng)機(jī)器翻譯

每一種語言對應(yīng)1 編碼器+ 1解碼器

一個(gè)共享的聚焦模型，還有每一種語言編碼和解碼規(guī)定的“代表翻譯函數(shù)”

用共享聚焦機(jī)制達(dá)成的多語言神經(jīng)機(jī)器翻譯

遷移學(xué)習(xí)起了作用

在大多數(shù)情況下，對定位成對的平行語料庫有益

基于字符的模型

在基于N型圖的模型中幾乎是不可能的；

但是，對于處理開放詞匯問題、拼寫錯(cuò)誤而、音譯、數(shù)字等端對端的問題卻是有必要的；

對于詞匯并沒有清晰的區(qū)分或者組合線（讓詞匯量顯示）的語言來說是有必要的；

在詞的規(guī)律（前綴、后綴、連接等）上進(jìn)行時(shí)是有必要的；

障礙：

對于RNNs：更長期的依賴性

較差的容量和計(jì)算率

2年前的前期實(shí)驗(yàn)：比起基于詞匯的模型，可持續(xù)性要更差?

基于字符的NMT實(shí)驗(yàn)

2層的架構(gòu)

更高級別的RNN動態(tài)地決定了何時(shí)使用類似GRU的公式軟性地更新狀態(tài)

基于字符的NMT實(shí)驗(yàn)

內(nèi)存訪問中的聚焦模型

神經(jīng)圖靈機(jī)器

內(nèi)存網(wǎng)絡(luò)

使用一個(gè)聚焦機(jī)制形式來控制對存儲器的讀取和寫入

聚焦機(jī)制在內(nèi)存上輸出一個(gè)softmax

從效率上看，softmax必須是稀疏的（大多數(shù)情況下是0），例如，或許可以使用一個(gè)混合圖表格式。

大型內(nèi)存網(wǎng)絡(luò)：長期依存的稀疏內(nèi)存訪問

一個(gè)外部存儲器中的狀態(tài)，可以保存任意長的時(shí)間，直到被讀取或?qū)懭?/p>

忘記=消失的梯度

內(nèi)存=更大的狀態(tài)，避免遺忘或者消失的必要

延遲不代表能更進(jìn)一步

在運(yùn)行的項(xiàng)目：知識提取

學(xué)習(xí)從自然語言對事實(shí)的描述中填入記憶網(wǎng)絡(luò)

強(qiáng)迫神經(jīng)網(wǎng)絡(luò)理解語言

從檔案中提取知識，并濃縮成可使用的格式

下一個(gè)大難題：非監(jiān)督式學(xué)習(xí)

最近的突破大多數(shù)都是在監(jiān)督式深度學(xué)習(xí)中

非監(jiān)督式學(xué)習(xí)中的真實(shí)挑戰(zhàn)

潛在的好處：

能處理海量的非標(biāo)簽數(shù)據(jù)

針對觀察的變量，回答新的問題

正則化矩陣——遷移學(xué)習(xí)——領(lǐng)域自適應(yīng)

更容易優(yōu)化（局部訓(xùn)練信號）

結(jié)構(gòu)性的輸出

對于沒有特定模型或在主要模擬的RL來說很有必要

結(jié)論

深度學(xué)習(xí)理論在許多前沿地帶都取得了顯著的進(jìn)步：為什么能更好地泛化？為什么局部最小值不是人們考慮的問題？深度無監(jiān)督學(xué)習(xí)的概率解釋。

聚焦機(jī)制讓學(xué)習(xí)者模型更好地做選擇，不管是軟聚焦還硬聚焦。

深度學(xué)習(xí)理論在機(jī)器翻譯和字幕生成上取得了巨大的成功。

在語音識別和視頻，特別是如果我們使用深度學(xué)習(xí)理論來捕捉多樣的時(shí)標(biāo)時(shí)，會很有用。

深度學(xué)習(xí)理論可用于解決長期的依存問題，讓一些狀態(tài)持續(xù)任意長時(shí)間。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器如何讓自己深度學(xué)習(xí) 最新深度學(xué)習(xí) 深度學(xué)習(xí)最新深度學(xué)習(xí)的最新應(yīng)用

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/4335.html

發(fā)表評論

登陸后可評論

0條評論

LMou

男|高級講師

我要關(guān)注我要私信

TA的文章

用前端最舒服的躺姿 "搞定" Flutter （組件篇）

閱讀 823·2019-08-30 15:55
Js基礎(chǔ)知識（四） - js運(yùn)行原理與機(jī)制

閱讀 1406·2019-08-30 13:55
CSS三角的寫法（兼容IE6）

閱讀 1982·2019-08-29 17:13
css布局方法

閱讀 2840·2019-08-29 15:42
前端面試每日 3+1 —— 第126天

閱讀 1329·2019-08-26 14:04
Vue基礎(chǔ)之內(nèi)部指令（下）

閱讀 1016·2019-08-26 13:31
javascript之深淺拷貝

閱讀 3270·2019-08-26 11:34
【js】what is Promise和手寫實(shí)現(xiàn)簡易版Promise

閱讀 828·2019-08-23 18:25

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Yoshua Bengio最新演講：Attention 讓深度學(xué)習(xí)取得巨大成功

相關(guān)文章

Yoshua Bengio：純粹與理想，深度學(xué)習(xí)的30年

**ICML 2015壓軸討論總結(jié)：6大神暢談深度學(xué)習(xí)的未來**

Yoshua Bengio等大神傳授：26條深度學(xué)習(xí)經(jīng)驗(yàn)

Yoshua Bengio等大神傳授：26條深度學(xué)習(xí)經(jīng)驗(yàn)

發(fā)表評論

0條評論

LMou

男|高級講師

TA的文章

用前端最舒服的躺姿 "搞定" Flutter （組件篇）

Js基礎(chǔ)知識（四） - js運(yùn)行原理與機(jī)制

CSS三角的寫法（兼容IE6）

css布局方法

前端面試每日 3+1 —— 第126天

Vue基礎(chǔ)之內(nèi)部指令（下）

javascript之深淺拷貝

【js】what is Promise和手寫實(shí)現(xiàn)簡易版Promise

最新活動