摘要:研究人員稱,其提出的可以無監督地學習并遷移數據單元對之間的依賴關系和圖形表征,并在自然語言處理和計算機視覺任務中取得了很好的效果。表自然語言處理任務中的模型簡化測試。
近日,由卡耐基梅隆大學、紐約大學和 Facebook 的研究者楊植麟、Junbo Zhao 等人提交的論文將遷移學習向前推進了一步。研究人員稱,其提出的 GLoMo 可以無監督地學習并遷移數據單元對之間的依賴關系和圖形表征,并在自然語言處理和計算機視覺任務中取得了很好的效果。值得一提的是,該論文作者還包括何愷明、Ruslan Salakhutdinov 和 Yann LeCun 等人。
深度學習的進展很大程度上依賴于諸如卷積網絡(CNN)[ 18 ] 和循環網絡(RNN)[ 14 ] 之類的架構及注意力機制 [ 1 ]。這些架構雖然具有較高的表征能力,但由于其內置的「先天優勢」,它們主要在網格狀或順序結構上運行。因此,CNN 和 RNN 在很大程度上依賴高表達能力來模擬復雜的結構現象,抵消了它們沒有明確利用結構和圖形表征的事實。
這種范式導致了遷移學習和預處理的標準化規范——在有監督或無監督的大數據集上擬合表達函數,然后將該函數應用到下游任務數據中進行特征提取。值得重視的例子包括預處理的 ImageNet 特征 [ 13 ] 和預處理的單詞嵌入 [ 23,28 ]。
相比之下,現實世界中的各種數據顯示出比簡單的網格狀或順序結構更豐富的關系圖結構。最近的其他類似研究也強調了這一點 [3]。例如在語言領域,語言學家使用解析樹來表示單詞之間的句法依賴性;信息檢索系統利用知識圖形反映實體關系;共指消解被設計成連接相同實體的不同表達式。因此,不管目標任務如何,這些示例性結構普遍存在于幾乎任何自然語言數據中,這意味著跨任務遷移的可能性。這些觀察也可以推廣到其他領域,如計算機視覺。在 CV 領域里,像素之間關系的建模被證明是有用的 [ 27,49,43 ]。然而,還存在一個障礙,許多通用結構基本上是人為策劃的,并且大規模獲取成本高昂,而自動誘發的結構大多限于一項任務。
圖 1:傳統遷移學習與新遷移學習框架的對比。GLoMo 不是遷移特征,而是遷移網絡輸出的圖形。圖形與任務特定的特征(例如嵌入或隱藏狀態)相乘,以產生結構感知特征。
在本文中,我們試圖解決兩個挑戰: 1)打破基于特征的深度遷移學習的標準化規范;2)以數據驅動的方式學習數據中的通用結構。我們對學習可遷移隱藏關系圖感興趣,其中隱藏圖的節點是輸入單元,例如句子中的所有單詞。隱藏關系圖學習的任務是學習一個相似矩陣,其中權重(可能為零)捕獲任意一對輸入單元之間的依賴關系。
為了實現上述目標,我們提出了一種新的無監督隱藏圖學習框架,稱之為 GLoMo(Graphs from LOw-level unit MOdeling,低級單位建模圖)。具體來說,我們從大規模的未標記數據中訓練一個神經網絡來輸出隱藏圖型,并將該網絡遷移到提取下游任務的圖結構來加強對它的訓練。這種方法可以讓我們把表示每個單元語義含義的特征和反映單元如何交互的圖形分開。理想情況下,圖形捕捉數據背后的任務無關結構,從而適用于不同的功能集。圖 1 突出了傳統的基于特征的遷移學習和新框架之間的差異。
實驗結果表明,GLoMo 提高了問答、自然語言推理和情感分析等各種語言任務的性能。我們還證實,學習到的圖形是通用的,可以用于未經過圖形訓練的各種特征集任務,包括 GloVe 嵌入 [28]、ELMo 嵌入 [ 29 ] 和任務特定的 RNN 狀態。我們還確定了學習成功通用圖的關鍵因素:解耦圖和特征、分層圖表征、稀疏性、單位級目標和序列預測。為了證明該框架的通用性,我們應用 GLoMo 來建模像素之間的關系依賴性,結果表明圖像分類任務的性能獲得改進。
圖 2:GLoMo 方法概述。
在無監督學習階段,特征預測器和圖形預測器被一起訓練以執行上下文預測。在遷移階段,圖形預測器被凍結并用于提取下游任務的圖形。RNN 解碼器應用于特征預測器中的所有位置,但是簡單起見,我們僅指出了位置「A」處的一個。「Select one」表示圖形可以遷移到下游任務模型中的任何層。「FF」指前饋網絡。圖形預測器輸出的圖用作「weighted sum」操作中的權重(參見等式 2)。
表 2:自然語言處理任務中的模型簡化測試。
表 3:計算機視覺任務:CIFAR - 10 的分類結果。我們采用一個 42000 / 8000 的訓練/驗證拆分——一旦根據驗證誤差選擇了較佳模型,我們就直接將其轉發到測試集,而不進行任何驗證集退回再訓練。我們僅使用水平翻轉來增加數據。上表中的結果是 5 輪實驗的平均結果。
論文:GLoMo: Unsupervisedly Learned Relational Graphs as Transferable Representations
論文鏈接:https://arxiv.org/abs/1806.05662
摘要:現代深度遷移學習方法主要側重于從一個任務中學習可遷移到其他任務的通用特征向量,例如語言中的單詞嵌入和視覺中的預訓練卷積特征。然而,這些方法通常遷移一元特征,卻很大程度上忽略了更結構化的圖形表征。本論文探索了從大規模未標記數據中學習捕獲數據單元對(例如單詞或像素)之間依賴關系的通用隱藏關系圖,并將這些圖傳遞給下游任務的可能性。我們提出的遷移學習框架提高了各種任務的性能,包括問答、自然語言推理、情感分析和圖像分類。我們的測試還表明,學習到的圖形是通用的,可以遷移到未經過圖形訓練的不同嵌入(包括 GloVe 嵌入、ELMo 嵌入和任務特定的 RNN 隱藏單元)或無嵌入單元(如圖形像素)。?
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4796.html
摘要:人工智能的主流算法深度學習的歷史,堪稱也是深度學習三劍客和共同走過的年艱難而輝煌的不悔人生。之后使用一種稱為監督學習的方法來訓練感知器,以正確區分不同形狀。表示,多層次神經網絡的結構并不會使感知器強大到有實用價值。 人工智能的主流算法Deep Learning深度學習的歷史,堪稱Deep History, 也是深度學習三劍客Geoff Hinton, Yann LeCun 和Yoshua B...
摘要:年的深度學習研討會,壓軸大戲是關于深度學習未來的討論。他認為,有潛力成為深度學習的下一個重點。認為這樣的人工智能恐懼和奇點的討論是一個巨大的牽引。 2015年ICML的深度學習研討會,壓軸大戲是關于深度學習未來的討論。基于平衡考慮,組織方分別邀請了來自工業界和學術界的六位專家開展這次圓桌討論。組織者之一Kyunghyun Cho(Bengio的博士后)在飛機上憑記憶寫下本文總結了討論的內容,...
摘要:最近,這就是街舞第二季開播,又一次燃起了全民熱舞的風潮。然而,真要自己跳起來,實際與想象之間,估計差了若干個羅志祥。系統映射結果展示對于系統的結果,研究人員表示還不完美。谷歌在和跳舞的結合上也花了心思。好了,先不說了,我要去跟學跳舞了。 最近,《這!就是街舞》第二季開播,又一次燃起了全民熱舞的風潮。 剛開播沒多久,這個全程高能的節目,就在豆瓣上就得到了 9.6 的高分。舞者們在比賽中精...
摘要:近年來,深度學習在計算機感知自然語言處理和控制方面取得了重大進展。位列新澤西州的發明家名人堂,并獲得年神經網絡先鋒獎年杰出研究獎年終身成就獎和來自墨西哥的名譽博士學位。 Yann Lecun是卷積網絡模型的發明者,該模型被廣泛地應用于模式識別應用中,因此他也被稱為卷積網絡之父,是公認的世界人工智能三巨頭之一。 2018年11月08日,他來到加州大學圣巴巴拉分校,為在場師生作了一場關于自監督學...
摘要:圖神經網絡是近年發展起來的一個很有前景的深度學習方向,也是一種強大的圖點云和流形表示學習方法。地址基于的幾何深度學習擴展庫是一個基于的幾何深度學習擴展庫,用于不規則結構輸入數據,例如圖點云和流形。與相比,訓練模型的速度快了倍。 過去十年來,深度學習方法(例如卷積神經網絡和遞歸神經網絡)在許多領域取得了前所未有的成就,例如計算機視覺和語音識別。研究者主要將深度學習方法應用于歐氏結構數據 (Eu...
閱讀 3451·2023-04-25 19:39
閱讀 3799·2021-11-18 13:12
閱讀 3634·2021-09-22 15:45
閱讀 2433·2021-09-22 15:32
閱讀 716·2021-09-04 16:40
閱讀 3726·2019-08-30 14:11
閱讀 1883·2019-08-30 13:46
閱讀 1563·2019-08-29 15:43