摘要:序列截斷后,造成段落邊界破碎,從而造成低效優化,即使是短序列這也是嚴重問題。此外,這種重復機制還解決了上下文碎片問題。
簡介
現實遠程依賴問題,比如要正確理解文章內容,有時需要閱讀多處段落,這對人來說輕松自如。但是,對神經網絡來說,遠程依賴問題依然是一個挑戰。雖然基于門控的RNN(LSTM,GRU等)和梯度裁剪等技術提高了對遠程依賴建模的能力,但仍不足以解決問題。
其中一個解決方法就是使用Transformers,Transformers允許數據單元直接連接,可以更好的捕獲遠距離的數據關系。但是,在語音模型中,Transformers一般使用固定長度context實現,即:把文本序列截斷為幾個固定長度的序列,然后分別多帶帶處理。
這存在兩個問題:
無法計算超過固定長度的依賴關系。
序列截斷后,造成段落邊界破碎,從而造成低效優化,即使是短序列這也是嚴重問題。
為了解決這些問題,可以嘗試使用Transformers-XL模型。Transformers-XL由兩種技術構成:Segment-level Recurrence和Relative Positional Encodings。
Segment-level Recurrence在訓練期間,當模型處理下一個新段落時,將前一個段落的計算表示固定并且緩存以作為重用擴展上下文。此附加連接將最大可能的將依賴性長度增加N倍,其中N是網絡的深度,因為上下文信息現在能夠跨越段落邊界流動。此外,這種重復機制還解決了上下文碎片問題。
Relative Positional Encodings在標準的Transformer中,序列順序的信息,都是由一組位置編碼提供,每一個位置都有絕對的位置信息。但將這個邏輯應用到重用機制中時,會導致性能損失。這個問題的解決思路是,對隱藏狀態中的相對位置信息進行編碼。從概念上講,位置編碼為模型提供了關于應如何收集信息的時間線索,即應該在哪里介入處理。以相對的方式定義時間線索,將相同的信息注入每層的注意分數,更加直觀,也更通用。基于這個思路,可以創建一組相對位置編碼,使得重用機制變得可行,也不會丟失任何的時間信息。將相對位置嵌入Transformer之中,并配合重用機制,就得到了Transformer-XL的架構。基于這些改進,Transformer-XL在相關的數據集上都取得了很好的成績。論文中表示,這是第一個在字符級和單詞級建模方面比RNN結果更好的自注意力模型。
總結Transformer-XL 在幾種不同的數據集(大 / 小,字符級別 / 單詞級別等)均實現了最先進的語言建模結果。它結合了深度學習的兩個重要概念——循環機制和注意力機制,允許模型學習長期依賴性,且可能可以擴展到需要該能力的其他深度學習領域,例如音頻分析(如每秒 16k 樣本的語音數據)等。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19937.html
摘要: Abstract Sockets are used nearly everywhere, but are one of the most severely misunderstood technologies around. This is a 10,000 foot overview of sockets. It’s not really a tutorial - you’ll s...
摘要:企業對敏捷以數據為中心的架構的需求根據拉丁美洲國家統計局的數據,下一波大數據和分析浪潮中,增強分析持續智能和可解釋的人工智能是未來三到五年內具有重大破壞潛力的大數據和分析的主要趨勢之一。企業對敏捷、以數據為中心的架構的需求:根據拉丁美洲國家統計局的數據,下一波大數據和分析浪潮中,增強分析、持續智能和可解釋的人工智能(AI)是未來三到五年內具有重大破壞潛力的大數據和分析的主要趨勢之一。Gart...
閱讀 2128·2021-09-27 14:04
閱讀 1873·2019-08-30 15:55
閱讀 1698·2019-08-30 13:13
閱讀 1065·2019-08-30 13:07
閱讀 2742·2019-08-29 15:20
閱讀 3240·2019-08-29 12:42
閱讀 3324·2019-08-28 17:58
閱讀 3593·2019-08-28 17:56