DeepMind 推出貝葉斯 RNN，語言建模和圖說生成超越傳統(tǒng) RNN

KunMinX 發(fā)布于2019-04-25 18:12 / 1010人閱讀

摘要：我們還經(jīng)驗性地演示了貝葉斯在語言建模基準和生成圖說任務(wù)上優(yōu)于傳統(tǒng)，以及通過使用不同的訓(xùn)練方案，這些方法如何改進我們的模型。第節(jié)和第節(jié)分別回顧了通過反向傳播做貝葉斯，和通過時間做反向傳播。

摘要

在這項工作里，我們探討了一種用于 RNN 的簡單變分貝葉斯方案（straightforward variational Bayes scheme）。首先，我們表明了一個通過時間截斷反向傳播的簡單變化，能夠得出良好的質(zhì)量不確定性估計和優(yōu)越的正則化結(jié)果，在訓(xùn)練時只需花費很小的額外計算成本。其次，我們展示了一種新的后驗近似，能夠如何進一步改善貝葉斯 RNN 的性能。我們將局部梯度信息合并到近似后驗，以便在當(dāng)前批次統(tǒng)計數(shù)據(jù)周圍對其進行銳化。這種技術(shù)并不僅限于循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），還可以更廣泛地應(yīng)用于訓(xùn)練貝葉斯神經(jīng)網(wǎng)絡(luò)。我們還經(jīng)驗性地演示了貝葉斯 RNN 在語言建模基準和生成圖說任務(wù)上優(yōu)于傳統(tǒng) RNN，以及通過使用不同的訓(xùn)練方案，這些方法如何改進我們的模型。我們還引入了一個新的基準來研究語言模型的不確定性，便于未來研究的對比。

背景：將貝葉斯方法用于訓(xùn)練，增加 RNN 不確定性和正則化

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）在一系列廣泛的序列預(yù)測任務(wù)上取得了業(yè)內(nèi)較高水平的性能（Wu et al., 2016; Amodei et al., 2015; Jozefowicz et al., 2016; Zaremba et al., 2014; Lu et al., 2016）。在這項工作中，我們將通過將貝葉斯方法用于訓(xùn)練，考察如何在 RNN 中增加不確定性和正則化。

貝葉斯方法為 RNN 提供了另一種表達不確定性的方法（通過參數(shù)）。同時，使用一個先驗（prior）將各種參數(shù)整合，使許多模型在訓(xùn)練期間平均化，使網(wǎng)絡(luò)實現(xiàn)正則化的效果。近來，有的方法試圖將 dropout（Srivastava et al，2014）和權(quán)重衰減證明為一種變分推理的方案（Gal＆Ghahramani，2016），或者應(yīng)用隨機梯度 Langevin dynamics（Welling＆Teh，2011，SGLD）在時間上直接截斷反向傳播（Gan et al，2016）。?

四大貢獻

有趣的是，最近的工作還沒有進一步研究像 Graves（2011）所做的那樣，直接應(yīng)用變分貝葉斯推理方案（Beal，2003）。（注釋：原文沒有提到 Graves 2011 年的工作，這里是有人在 Reddit 上指出后，Oriol Vinyals 立即做的修改。）

我們在（Blundell et al，2015）Bayes by Backprop 工作的基礎(chǔ)上，提出了一個簡單直接的方法，經(jīng)過實驗表明能夠解決很大規(guī)模的問題。

我們的方法是對通過時間截斷反向傳播的一個簡單改變，得到了對 RNN 權(quán)重后驗分布的估計。

將貝葉斯方法應(yīng)用于成功的深度學(xué)習(xí)模型有兩大好處：對不確定性和正則化的明確表征。我們的公式明確地導(dǎo)出了一個有信息理論支撐的成本函數(shù)（cost function）。

變分推理后驗的形式?jīng)Q定了不確定性估計的質(zhì)量，從而影響著模型的整體表現(xiàn)。我們將展示如何在批次的局部調(diào)整（“銳化”）后驗，提高 RNN 的性能。這種銳化使用基于批次的梯度來調(diào)整一個批次數(shù)據(jù)的變分后驗。這一過程可以被視為層次化分布（hierarchical distribution），其中局部批次梯度被用于調(diào)整全局的后驗，在每個批次都形成一個局部近似。

將變分推理應(yīng)用于神經(jīng)網(wǎng)絡(luò)時，這為高斯后驗（Gaussian posterior）的典型假設(shè)提供了更靈活的形式，減小了方差（variance）。這種技術(shù)可以在其他變分貝葉斯模型中更廣泛地應(yīng)用。

我們展示了如何將 Backprop By Bayes（BBB）有效應(yīng)用于 RNN。

我們開發(fā)了一種減少 BBB 方差的新技術(shù)，可以被廣泛地用于其他較大似然框架當(dāng)中。

我們在兩項經(jīng)過廣泛研究的基準上提高了測試結(jié)果，性能大幅超越了現(xiàn)有的正則化技術(shù)，比如 dropout。

我們?yōu)檠芯空Z言模型的不確定性提出了新的基準。

實驗結(jié)果：圖說生成超越現(xiàn)有基準

作者在論文中給出了他們新方法在圖說生成在 MSCOCO 上與此前方法的對比。可以看出，BBB 相較以前的結(jié)果有顯著提升。

論文的其余部分組織如下。第 2 節(jié)和第 3 節(jié)分別回顧了通過反向傳播做貝葉斯（Bayes by Backprop，BBB）和通過時間做反向傳播（Backprop through time）。第 4 節(jié)推導(dǎo)出了用于 RNN 的 Bayes by Backprop，而第 5 節(jié)描述了后驗的銳化。第 6 節(jié)簡要回顧了相關(guān)工作。第 7 節(jié)做了實驗評估，最后在第 8 節(jié)進行討論并得出結(jié)論。

論文地址：https://arxiv.org/abs/1704.02798

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754