LeCun 談深度學(xué)習(xí)技術(shù)局限及發(fā)展

LuDongWei 發(fā)布于2019-04-25 18:03 / 3235人閱讀

摘要：淺層結(jié)構(gòu)化預(yù)測方法有損失的條件隨機(jī)域，有的較大邊緣馬爾可夫網(wǎng)絡(luò)和隱支持向量機(jī)，有感知損失的結(jié)構(gòu)化感知深層結(jié)構(gòu)化預(yù)測圖變換網(wǎng)絡(luò)圖變換網(wǎng)絡(luò)深度學(xué)習(xí)上的結(jié)構(gòu)化預(yù)測該圖例展示了結(jié)構(gòu)化感知損失實(shí)際上，使用了負(fù)對數(shù)似然函數(shù)損失于年配置在支票閱讀器上。

卷積網(wǎng)絡(luò)和深度學(xué)習(xí)的動機(jī)：端到端的學(xué)習(xí)

一些老方法：步長內(nèi)核，非共享的本地連接，度量學(xué)習(xí)，全卷積訓(xùn)練

深度學(xué)習(xí)缺少什么？

基礎(chǔ)理論

推理、結(jié)構(gòu)化預(yù)測

記憶

有效的監(jiān)督學(xué)習(xí)方法

深度學(xué)習(xí)=學(xué)習(xí)層次化表達(dá)

傳統(tǒng)模式識別方法：固定或手動特征提取

2015年主流的模式識別：利用無監(jiān)督中層特征進(jìn)行分類

深度學(xué)習(xí)：特征具有層次性，通過訓(xùn)練獲得

視覺領(lǐng)域早期層次化特征模型

簡單細(xì)胞檢測本地特征

復(fù)雜細(xì)胞把簡單細(xì)胞的輸出池化在視皮層附近

哺乳動物的視皮層是層次化的

視皮層的腹側(cè)識別路徑分多個階段

視網(wǎng)膜 - LGN - V1 - V2 - PIT - AIT?

有很多中間表征

深度的定義：存在多次非線性特征轉(zhuǎn)化

早期網(wǎng)絡(luò)回顧

目標(biāo)定位監(jiān)督訓(xùn)練二值單元

隱藏單元計(jì)算虛擬目標(biāo)

較早的卷積神經(jīng)網(wǎng)絡(luò)（U Toronto）[LeCun 88,89]

用反向傳播訓(xùn)練320個例子

有步長的卷積

沒有分離的池化層

第一個真正意義的深度卷積網(wǎng)絡(luò)在貝爾實(shí)驗(yàn)室誕生 [LeCun et al 89]

用反向傳播訓(xùn)練

數(shù)據(jù)：USPS 郵編號—7300 訓(xùn)練樣本，2000測試樣本

基于步長的卷積，不具備分離池化/采樣層

池化層分離的卷積網(wǎng)絡(luò)

卷積網(wǎng)絡(luò) （Vintage 1992）

LeNet1 演示系統(tǒng) （1993）

整合分割多字符識別

多字符識別【Matan et al 1992】

SDNN空間移位神經(jīng)網(wǎng)絡(luò)

也被稱為復(fù)制的卷積網(wǎng)絡(luò)或 ConvNet——問題：我們能否稱其為完全卷積網(wǎng)絡(luò)？

不存在完全連接層

它們實(shí)際上是具有1×1卷積內(nèi)核的卷積層

多字符識別：集成分割

用半合成數(shù)據(jù)訓(xùn)練

訓(xùn)練樣本

建立在深度卷積網(wǎng)絡(luò)上的‘Deformable part model’ [Driancourt, Bottou 1991]

具有可訓(xùn)練靈活單詞模板的口語單詞識別方法；

是第一個建立在深度學(xué)習(xí)上的結(jié)構(gòu)化預(yù)測的例子。

具有靈活單詞模型的單詞層級訓(xùn)練：

1. 獨(dú)立的話語單詞識別

2. 可訓(xùn)練的靈活模板和特征提取

3. 在單詞層進(jìn)行全局訓(xùn)練

4. 使用動態(tài)時間規(guī)整（Dynamic Time Warping）進(jìn)行靈活匹配

結(jié)構(gòu)化預(yù)測和深度學(xué)習(xí)的較早的例子：基于卷積網(wǎng)絡(luò)(TDNN) 和動態(tài)時間規(guī)整（DTW）的可訓(xùn)練自動語音識別系統(tǒng)

端到端學(xué)習(xí) -- 單詞層的差別訓(xùn)練：

使每一個系統(tǒng)模塊成為可訓(xùn)練的

同時訓(xùn)練所有模塊從而最優(yōu)化全局損失函數(shù)

過程包括特征提取，識別器，環(huán)境后處理器（圖像模型）

問題：通過圖像模型進(jìn)行梯度后向傳播。

淺層結(jié)構(gòu)化預(yù)測方法：

有NLL損失的條件隨機(jī)域，

有Hinge Loss的較大邊緣馬爾可夫網(wǎng)絡(luò)和隱支持向量機(jī)（Latent SVM），

有感知損失的結(jié)構(gòu)化感知

深層結(jié)構(gòu)化預(yù)測：圖變換網(wǎng)絡(luò)

圖變換網(wǎng)絡(luò)：深度學(xué)習(xí)上的結(jié)構(gòu)化預(yù)測

該圖例展示了結(jié)構(gòu)化感知損失

實(shí)際上，使用了負(fù)對數(shù)似然函數(shù)損失

于1996年配置在支票閱讀器上。

支票閱讀器。

圖變換網(wǎng)絡(luò)被用于讀支票數(shù)量。

是一種基于負(fù)對數(shù)似然性損失的全局訓(xùn)練。

在1996年被提出，并被美國和歐洲的許多銀行應(yīng)用

目標(biāo)檢測

人臉檢測 [Vaillant et al. 93, 94]: ConvNet 被用于大型圖片。

利用多個規(guī)格的熱圖，對候選者做非極大值抑制。

在SPARC處理器上運(yùn)行，處理一副256×256像素的圖像需要6秒。

2000年代中期的人臉檢測技術(shù)成果[Garcia & Delakis 2003][Osadchy et al. 2004] [Osadchy et al, JMLR 2007]

同步人臉識別和姿勢估計(jì)

語義分割

ConvNets 在生物圖像分割領(lǐng)域的應(yīng)用：

生物圖像分割[Ning et al. IEEE-TIP 2005]。

使用convnet在大環(huán)境進(jìn)行像素標(biāo)記:?

ConvNet 對一個窗口中的像素進(jìn)行處理，并標(biāo)記該窗口的中心像素。

使用一種條件隨機(jī)域的方法進(jìn)行噪音像素清理。

連接組學(xué)的三維版本。

ConvNet在長距離適應(yīng)性機(jī)器人視覺中的應(yīng)用。

用卷積網(wǎng)絡(luò)建模長距離視覺。

卷積網(wǎng)絡(luò)體系結(jié)構(gòu)

場景分解/標(biāo)記：多尺度的ConvNet體系

方法1：多數(shù)在超像素區(qū)

場景解析和標(biāo)記：用于RGB + 深度圖像

場景解析和標(biāo)記：?

沒有后處理；

以幀為單位；

ConvNet在Virtex-6 FPGA上運(yùn)行效率是50ms/幀；

但在以太網(wǎng)上交流特征信息限制系統(tǒng)性能

接下來，兩個重要事件：

ImageNet數(shù)據(jù)集誕生[Fei-Fei et al. 2012]，有1200萬的訓(xùn)練樣本，分類在1000個目錄里；

快速圖像處理單元（GPU）：處理速度達(dá)到每秒1萬億次操作

極深ConvNet在對象識別中的應(yīng)用

深度人臉[Taigman et al. CVPR 2014]：

對準(zhǔn)，

ConvNet,?

度量學(xué)習(xí)

深度學(xué)習(xí)存在的問題是什么？

深度學(xué)習(xí)缺少理論

· ConvNets 的優(yōu)點(diǎn)是？

· 我們到底需要多少層？

· 在一個大型ConvNet中，有多少有效的自由參數(shù)？目前來看ConvNet冗余過多

· 局部極小值有什么問題？

（1）幾乎所有局部極小值都相等；局部極小的效能退化；

（2）針對這個問題，隨機(jī)矩陣/spin glass理論被提出[Choromanska, Henaff, Mathieu, Ben Arous, LeCun AI-stats 2015]

基于ReLU 的深度網(wǎng)絡(luò)：目標(biāo)函數(shù)是分段多項(xiàng)式

深度學(xué)習(xí)缺少論證

能量最小化論證（結(jié)構(gòu)化預(yù)測：structured prediction++）

· 深度學(xué)習(xí)系統(tǒng)能被組裝為能量模型，又名因子圖

· 推理過程是能量最小化過程或自由能量最小化（邊緣化）

基于能量的學(xué)習(xí)[LeCun et al. 2006]：按所需輸出的能量向下推；按其他向上推

深度學(xué)習(xí)缺少記憶

自然語言處理：單詞嵌入

從上下文預(yù)測當(dāng)前單詞

進(jìn)行成分語義特征

基于卷積或循環(huán)網(wǎng)絡(luò)的文本嵌入：在向量空間中嵌入句子

自然語言處理例子：問答系統(tǒng)

用 Thought vector 表示世界

· 每一個對象，概念，或“想法（Thought）”能被表示成一個向量

· 推理的過程在于對thought vector的操縱

· 記憶存儲thought vectors：例子：MemNN（記憶神經(jīng)網(wǎng)絡(luò)）

· 在FAIR，我們正試圖把世界嵌入思維向量中

· 我們把這個使命叫做：World2Vec

那么神經(jīng)網(wǎng)絡(luò)是如何記憶的？

· 循環(huán)網(wǎng)絡(luò)沒有長期記憶：皮層只能有20秒的記憶

· 我們需要一個‘海馬體’（另一個記憶模塊），例如（1）LSTM[Hochreiter 1997] ，寄存器；（2）記憶網(wǎng)絡(luò)[Weston et 2014]（FAIR），聯(lián)想記憶（3）NTM[DeepMind 2014]，磁帶。

塑造能量函數(shù)的7個策略：

（1）建立學(xué)習(xí)機(jī)器使得低能量物體的量維持不變；（2）把有能量的數(shù)據(jù)點(diǎn)向上推，其他地方向下推；（3）把有能量的數(shù)據(jù)點(diǎn)向下推，特定區(qū)域向上推；（4）最小化梯度，較大化數(shù)據(jù)點(diǎn)周圍的曲率；（5）訓(xùn)練一個動態(tài)系統(tǒng)使得動態(tài)因素轉(zhuǎn)向流形；（6）使用正則化限制低能量區(qū)域的擴(kuò)充；（7）壓縮自動編碼器（auto-encoder）; 使auto-encoder飽和

以下由于篇幅原因，只列出文字，請?jiān)谛轮窃笈_回復(fù)“0703”下載PPT全文

S83. 低能量恒容：建立一個學(xué)習(xí)機(jī)，使得低能量容量恒定

S84. 使用正則器限制低能量區(qū)域：

S85. 不同方法的能量函數(shù)：二維小數(shù)據(jù)集：螺旋；能量表層可視化

S86. 基于快速近似推理的字典學(xué)習(xí)：稀疏自動編碼器

S87. 如何在一個生成模型中加速推理？

S88. 稀疏建模：稀疏代碼 + 字典學(xué)習(xí)

S89. 使用正則器限制低能量區(qū)域：

稀疏編碼，

稀疏自動編碼器（auto-encoder）

預(yù)測稀疏分解

S90. 編碼器體系。

例子：大部分ICA 模型，專家產(chǎn)品

S91. 編碼-解碼體系。

在感興趣的數(shù)據(jù)點(diǎn)上訓(xùn)練一個‘簡單的’前向函數(shù)去預(yù)測復(fù)雜優(yōu)化問題的結(jié)果 [Kavukcuoglu, Ranzato, LeCun, rejected by every conference, 2008-2009]

S92. 學(xué)習(xí)執(zhí)行近似推理：預(yù)測稀疏分解，稀疏自動編碼器

S93. 稀疏自動編碼器：預(yù)測稀疏分解

· 用一個訓(xùn)練的編碼器預(yù)測最優(yōu)化代碼

· 能量 = 重構(gòu)錯誤+代碼預(yù)測錯誤+代碼稀疏性

S94. 用于非監(jiān)督特征學(xué)習(xí)的正則化編碼-解碼模型（自動編碼器）

· 編碼器：基于X計(jì)算特征向量Z

· 解碼器：從向量Z重構(gòu)輸入X

· 特征向量：高維和正則化的（e.g. 稀疏）

· 因子圖的能量函數(shù)E(X,Z)，3項(xiàng)：

? ? ? 線性解碼函數(shù)和重構(gòu)錯誤；

? ? ? 非線性編碼函數(shù)和預(yù)測錯誤；

? ? ? 池化函數(shù)和正則項(xiàng)

S95. PSD: MNIST 上的基礎(chǔ)函數(shù)：基礎(chǔ)函數(shù)和（編碼矩陣）是數(shù)字部分

S96. 預(yù)測稀疏分解（PSD）：訓(xùn)練。在自然圖像塊上訓(xùn)練：12×12，256基礎(chǔ)函數(shù)

S97. 在自然片段上學(xué)習(xí)特征：V1型感受域

S98. 學(xué)習(xí)近似推理： LISTA

S99. 更好的想法：把正確的結(jié)構(gòu)給編碼器

· ISTA/FISTA: 迭代算法收斂于最優(yōu)稀疏碼

· ISTA/FISTA: 重新參數(shù)化

· LISTA(Learned ISTA): 學(xué)習(xí) We 和 S 矩陣以加速求解

S100. 訓(xùn)練 We 和 S 矩陣支持快速近似求解

· 把FISTA流圖看成一個循環(huán)神經(jīng)網(wǎng)絡(luò)，其中We 和 S是可訓(xùn)參數(shù)

· 時間展開流圖進(jìn)行K次迭代

· 用定時后向傳播學(xué)習(xí)We和S矩陣

· 在K次迭代中獲得最優(yōu)近似解

S101. 學(xué)習(xí)ISTA (LISTA) vs ISTA/FISTA

S102. 基于局部互抑矩陣的LISTA

S103. 學(xué)習(xí)坐標(biāo)下降（LcoD）: 比LISTA塊

S104. 差異循環(huán)稀疏自動編碼器（DrSAE）[Rolfe & LeCun ICLR 2013]

S105. DrSAE發(fā)現(xiàn)手寫數(shù)字的流形結(jié)構(gòu)

S106. 卷積稀疏編碼

· 利用卷積把點(diǎn)積替換為字典元素；正則稀疏編碼；卷積S.C.

S107. 卷積PSD: 用軟函數(shù)sh()編碼.

· 卷積公式：把稀疏編碼從PATCH擴(kuò)展到IMAGE

· 基于PATCH的學(xué)習(xí)

· 卷積學(xué)習(xí)

S108. 自然圖像上的卷積稀疏自動編碼

S109. 使用PSD 訓(xùn)練特征層次。

階段1：使用PSD訓(xùn)練第一層

階段2：用編碼器+值做特征提取器

階段3：用PSD訓(xùn)練第二層

階段4：用編碼器+值做第二特征提取器

階段5：在頂部訓(xùn)練一個監(jiān)督分類器

階段6（可選）：用監(jiān)督反向傳播訓(xùn)練整個系統(tǒng)

S110. ?行人檢測：INRIA數(shù)據(jù)集。

缺失率(Miss rate)和誤報率（False positives）[Kavukcuoglu et al. NIPS 2010] [Sermanet et al. ArXiv 2012]

S111. 非監(jiān)督學(xué)習(xí)：不變特征

S112. 用L2組稀疏學(xué)習(xí)不變特征。

無監(jiān)督PSD忽略空間池化。

我們能否設(shè)計(jì)一個相似的方法以學(xué)習(xí)池化層？

解決方案：特征池上的組稀疏，特點(diǎn)

（1）池的個數(shù)必須非0；

（2）一個池中的特征數(shù)不重要；

（3）各個池會重組相似特征。

S113. 用L2組稀疏學(xué)習(xí)不變特征. 該方法的中心思想和發(fā)展歷程。

· 中心思想：特征被池化成組。

· 發(fā)展：

[Hyv?rinen Hoyer 2001]: “子空間ICA（subspace ICA）”，僅用于解碼，平方；

[Welling, Hinton, Osindero NIPS 2002]: 池化的專家產(chǎn)品（pooled product of experts）：僅編碼，過完備，L2池化上的對數(shù)student-T懲罰；

[Kavukcuoglu, Ranzato, Fergus LeCun, CVPR 2010]: 不變PSD（ Invariant PSD）。編碼-解碼（像PSD），過完備，L2池化

[Le et al. NIPS 2011]: 重構(gòu)ICA（Reconstruction ICA）：與[Kavukcuoglu 2010]相似，具有線性編碼器和緊湊解碼器

[Gregor & LeCun arXiv:1006:0448, 2010] [Le et al. ICML 2012]: 局部相連非共享（片化的）編碼-解碼器

S118. 分組都局部于一個2維地形圖。

過濾器能自我管理，從而相似過濾器聚集在一個池中。

池化單元可被看為復(fù)雜細(xì)胞。

池化單元的輸出不隨輸入的局部轉(zhuǎn)化而變化。

S119-120. 圖像層訓(xùn)練，局部過濾器，不共享權(quán)重：在115×115圖像上訓(xùn)練。內(nèi)核是15×15（不通過空間共享）：[Gregor & LeCun 2010]的方法；局部感知域；無共享權(quán)重；4倍過完備；L2池化；池上組稀疏。

S121. 地形圖. 例子屬性：119×119 圖像輸入，100×100編碼，20×20感知域規(guī)格，sigma = 5.

S122. 圖像層訓(xùn)練，局部過濾器，不共享權(quán)重。顏色表明方向（通過擬合Gabors函數(shù)）

S123. 不變特征的側(cè)抑制。用側(cè)抑制矩陣替換L1稀疏項(xiàng)；一種給稀疏項(xiàng)強(qiáng)加特定結(jié)構(gòu)的簡單方法[Gregor, Szlam, LeCun NIPS 2011]。

S124. 通過側(cè)抑制學(xué)習(xí)不變特征：結(jié)構(gòu)化稀疏。樹中的每條邊表明S矩陣中的一個0（無互抑制）。如果樹中兩個神經(jīng)元離得遠(yuǎn)，它們的S比較大

S125. 通過側(cè)抑制學(xué)習(xí)不變特征：地形圖。S中的非0值形成2維拓?fù)鋱D中的一個環(huán)。輸入片被高通濾波過濾

S126. 有“慢特征”懲罰的稀疏自編碼

S127. 時間恒常的不變特征。對象是實(shí)例化參數(shù)和對象類型的叉積：映射單元[Hinton 1981]，膠囊[Hinton 2011]。

S128. What-Where 自編碼體系。

S129. 連接到單個復(fù)雜細(xì)胞的低層過濾器

S130. ?集成監(jiān)督式和非監(jiān)督式學(xué)習(xí)：疊放的What-Where自編碼[Zhao, Mathieu, LeCun arXiv:1506.02351]

S132. The bAbI 任務(wù)。一個AI系統(tǒng)應(yīng)該能回答的問題。

具有一個支撐事件的基本仿真QA?

具有兩個支撐事件的仿真QA

對具有兩個支撐事件的仿真QA字符重新排序

有三個支撐事件的仿真QA

兩個論證關(guān)系：可觀的和主觀的

三個論證關(guān)系

Yes/No 問題

計(jì)數(shù)

列表和集合

簡單拒絕

非決定性知識

基本指代

連詞

復(fù)合指代

時間操縱

基本推理

基本歸納

位置推理

關(guān)于尺寸的推理

尋找路徑

行為動機(jī)推理

S157. ?解決以上這些任務(wù)的一種方法：記憶網(wǎng)絡(luò)（MeNN）

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器深度學(xué)習(xí)局限深度學(xué)習(xí)及應(yīng)用深度學(xué)習(xí)方法及應(yīng)用深度學(xué)習(xí)發(fā)展

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/4379.html

發(fā)表評論

登陸后可評論

0條評論

LuDongWei

男|高級講師

我要關(guān)注我要私信

TA的文章

#11.11大促#raksmart，獨(dú)服低至$30/月，洛杉磯/硅谷/中國香港/日本獨(dú)服/韓國，可選

閱讀 3226·2021-11-02 14:44
深藏功與名，利用Python修改前女友婚禮現(xiàn)場WIFI，轉(zhuǎn)身瀟灑離去！

閱讀 3729·2021-09-02 15:41
CSS實(shí)現(xiàn)反方向圓角

閱讀 1671·2019-08-29 16:57
原型與原型鏈

閱讀 1793·2019-08-26 13:38
使用express來代理服務(wù)

閱讀 3302·2019-08-23 18:13
Ajax

閱讀 2112·2019-08-23 15:41
js數(shù)據(jù)結(jié)構(gòu)-鏈表

閱讀 1677·2019-08-23 14:24
Vue學(xué)習(xí)筆記（未完待續(xù)）

閱讀 3034·2019-08-23 14:03

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

LeCun 談深度學(xué)習(xí)技術(shù)局限及發(fā)展

相關(guān)文章

**ICML 2015壓軸討論總結(jié)：6大神暢談深度學(xué)習(xí)的未來**

**深度學(xué)習(xí)鼻祖杰夫·辛頓及巨頭們的人才搶奪戰(zhàn)**

**IEEE深度對話Facebook負(fù)責(zé)人Yann LeCun：讓深度學(xué)習(xí)擺脫束縛**

**那些開創(chuàng)深度學(xué)習(xí)的大師們**

**【LeCun臺大演講】AI最大缺陷是缺乏常識，無監(jiān)督學(xué)習(xí)突破困境**

發(fā)表評論

0條評論

LuDongWei

男|高級講師

TA的文章

#11.11大促#raksmart，獨(dú)服低至$30/月，洛杉磯/硅谷/中國香港/日本獨(dú)服/韓國，可選

深藏功與名，利用Python修改前女友婚禮現(xiàn)場WIFI，轉(zhuǎn)身瀟灑離去！

CSS實(shí)現(xiàn)反方向圓角

原型與原型鏈

使用express來代理服務(wù)

Ajax

js數(shù)據(jù)結(jié)構(gòu)-鏈表

Vue學(xué)習(xí)筆記（未完待續(xù)）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

LeCun 談深度學(xué)習(xí)技術(shù)局限及發(fā)展

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！