摘要:而從貝葉斯概率視角描述深度學(xué)習(xí)會(huì)產(chǎn)生很多優(yōu)勢,即具體從統(tǒng)計(jì)的解釋和屬性,從對優(yōu)化和超參數(shù)調(diào)整更有效的算法,以及預(yù)測性能的解釋這幾個(gè)方面進(jìn)一步闡述。貝葉斯層級模型和深度學(xué)習(xí)有很多相似的優(yōu)勢。
論文地址:https://arxiv.org/abs/1706.00473
深度學(xué)習(xí)是一種為非線性高維數(shù)據(jù)進(jìn)行降維和預(yù)測的機(jī)器學(xué)習(xí)方法。而從貝葉斯概率視角描述深度學(xué)習(xí)會(huì)產(chǎn)生很多優(yōu)勢,即具體從統(tǒng)計(jì)的解釋和屬性,從對優(yōu)化和超參數(shù)調(diào)整更有效的算法,以及預(yù)測性能的解釋這幾個(gè)方面進(jìn)一步闡述。同時(shí),傳統(tǒng)的高維統(tǒng)計(jì)技術(shù):主成分分析法(PCA)、偏最小二乘法(PLS)、降秩回歸(RRR)、投影尋蹤回歸(PPR)等方法將在淺層學(xué)習(xí)器(shallow learner)那一部分展示。這些傳統(tǒng)降維方法的深度學(xué)習(xí)形式可以利用多層數(shù)據(jù)降維而令性能達(dá)到一個(gè)較大提升。隨機(jī)梯度下降(SGD)通過訓(xùn)練、優(yōu)化和 Dropout(DO)能選擇模型和變量。貝葉斯正則化(Bayesian regularization)是尋找最優(yōu)網(wǎng)絡(luò)和提供最優(yōu)偏差-方差權(quán)衡框架以實(shí)現(xiàn)良好樣本性能的核心。我們還討論了高維中構(gòu)建良好的貝葉斯預(yù)測因子。為了證明我們的方法,我們對 Airbnb 首次國際預(yù)訂的樣本進(jìn)行了分析。最后,我們討論了該研究未來的方向。
1 引言
深度學(xué)習(xí)(DL)是一種使用分層隱含變量的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)可以看作為一個(gè)概率模型,其中條件均值指定為廣義線性模型的堆疊(sGLM)。
深度學(xué)習(xí)是一個(gè)非線性高維數(shù)據(jù)降維的方案,其理論基礎(chǔ)來源于 Kolmogorov 將多元反應(yīng)曲面(multivariate response surfaces)表征為單變量半仿射函數(shù)的疊加。深度學(xué)習(xí)自然上更是一種算法而不是概率模型,因此我們希望通過提供一個(gè)深度學(xué)習(xí)范式的貝葉斯視角來促進(jìn)一些方面的理解與研究,如更快的隨機(jī)算法、優(yōu)化的調(diào)參方法和可解釋性模型等方面。
從經(jīng)驗(yàn)上來說,深度學(xué)習(xí)的改進(jìn)主要來自三個(gè)部分:
新的激活函數(shù),比如使用 ReLU 替代歷來使用的 Sigmoid 函數(shù)
架構(gòu)的深度和采用 dropout 作為變量選擇技術(shù)
常規(guī)訓(xùn)練和評價(jià)模型的計(jì)算效率由于圖形處理單元(GPU)和張量處理單元(TPU)的使用而大大加速
1.1 深度學(xué)習(xí)
機(jī)器學(xué)習(xí)在給定一個(gè)高維輸入 X 的情況下訓(xùn)練一個(gè)得到輸出 Y 的預(yù)測器。因此,一個(gè)學(xué)習(xí)器就是一種輸入和輸出之間的映射。其中輸出 Y = F (X),而輸入空間 X 是一種高維空間,即我們可以表示為:
因此,給定一定層級數(shù)量 L,我們的深度預(yù)測器就成為了復(fù)合映射:
簡而言之,一個(gè)高維映射 F 可以通過單變量半仿射函數(shù)的疊加來建模。類似于經(jīng)典的基礎(chǔ)分解(basis decomposition),該深度方法使用單變量激活函數(shù)分解高維輸入矩陣 X。為了選擇隱藏單元(也稱神經(jīng)元)的數(shù)量 Nl,在每一層我們都會(huì)使用 dropout。偏置向量是必不可少的,例如我們使用不帶常數(shù)項(xiàng)的 b 的函數(shù) f (x) = sin(x) 甚至都不能逼近擬合像 cos(x) 那樣的函數(shù),而一個(gè)偏置項(xiàng)(即 sin(x + π/2) = cos(x))就很容易解決這樣的問題。
現(xiàn)在定義 Z (l) 指代第 l 層神經(jīng)網(wǎng)絡(luò),所以輸入向量 X 就可以表示為 Z(0)。最終的輸出是 Y,其可以是數(shù)值型(numeric)或分類型(categorical)。因此,深度預(yù)測規(guī)則就可以表達(dá)為:
其中,圖 1 展示了深度神經(jīng)網(wǎng)絡(luò)常用的架構(gòu),即前饋網(wǎng)絡(luò)、自編碼器、卷積網(wǎng)絡(luò)、循環(huán)網(wǎng)絡(luò)、長短期記憶和神經(jīng)圖靈機(jī)。一旦系統(tǒng)訓(xùn)練得出了一個(gè)高階非零權(quán)重矩陣,其中就暗含了一個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
圖 1:深度學(xué)習(xí)最常見的建模架構(gòu)
2 深度概率學(xué)習(xí)
2.1 對于模型和變量選擇的 Dropout?
Dropout 是一種模型選擇技術(shù),其旨在避免在訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,Dropout 的基本做法是在給定概率 p 的情況下隨機(jī)移除輸入數(shù)據(jù) X 的維度。因此,探討一下其如何影響潛在損失函數(shù)和最優(yōu)化問題是有啟發(fā)性的。
2.2 淺層學(xué)習(xí)器
幾乎所有的淺層數(shù)據(jù)降維技術(shù)都可以視為由低維輔助變量 Z 和合成函數(shù)指定的預(yù)測規(guī)則所組成:
3 尋找好的貝葉斯預(yù)測器
圖 2:樹型核函數(shù)和隨機(jī)森林核函數(shù)
圖 3:50 維度的球體(50-dimensional ball)和蒙特卡羅抽樣結(jié)果的二維圖像
圖 4:Y ~ U(Bp) 的邊緣分布直方圖,其中 p 為不同的維度數(shù)量。
圖 5:由帶有 ReLU 激活函數(shù)的三個(gè)神經(jīng)元所定義的超平面。
圖 6:由樹型架構(gòu)(頂行)和深度學(xué)習(xí)架構(gòu)(底行)對三個(gè)不同數(shù)據(jù)集做所得的空間劃分結(jié)果
4 算法問題
4.1 隨機(jī)梯度下降
4.2 學(xué)習(xí)淺層預(yù)測器
傳統(tǒng)的因子模型(factor model)才用 K 個(gè)隱藏因子 {F1 , F2 ,..., Fk } 的線性組合:
其中 l 等于 1 或 2,即可用 L1 范數(shù)或 L2 范數(shù)?,F(xiàn)在我們最小化重構(gòu)誤差(即精度)并加上正則化罰項(xiàng)以控制其他樣本預(yù)測的方差-偏差均衡?,F(xiàn)有很多算法可以高效地解決這類問題,比如說如果采用 L2 范數(shù)和高效的激活函數(shù)就能將模型表征為神經(jīng)網(wǎng)絡(luò)模型。
5 應(yīng)用:預(yù)測 Airbnb 預(yù)訂
為了闡釋這種深度學(xué)習(xí)范式,我們使用了一個(gè)由 Airbnb 提供給 Kaggle 比賽的數(shù)據(jù)集來進(jìn)行我們的實(shí)驗(yàn)分析。實(shí)驗(yàn)?zāi)繕?biāo)是構(gòu)建一個(gè)預(yù)測模型,使之能夠預(yù)測一個(gè)新用戶將會(huì)在哪個(gè)國家進(jìn)行他或她的首次預(yù)訂。
圖 11:深度學(xué)習(xí)模型的預(yù)測準(zhǔn)確度。(a) 給出了當(dāng)僅使用預(yù)測的目的地時(shí)的預(yù)測準(zhǔn)確度;(b) 給出了當(dāng)預(yù)測國家是被預(yù)測列表中的前兩位時(shí),正確預(yù)測所占的正確比例;(c) 給出了當(dāng)預(yù)測國家是被預(yù)測列表中的前三位時(shí),正確預(yù)測所占的正確比例
圖 12:由 XGBoost 模型識別出的 15 個(gè)最重要的特征
6 討論
深度學(xué)習(xí)可被視為高維非線性數(shù)據(jù)降維方案。而基于深度學(xué)習(xí)的貝葉斯概率模型是一種疊加的廣義線性模型(GLM)。因此,其成功地闡明了使用 SGD 訓(xùn)練深度架構(gòu),但同時(shí) SGD 又是一種一階梯度方法,所以尋找到的后驗(yàn)?zāi)J饺匀皇呛芨呔S度的空間。通過采用預(yù)測性的方法(其中正則化起到了很大的作用),深度學(xué)習(xí)取得了成功。
下面展示了許多貝葉斯深度學(xué)習(xí)以后可能會(huì)應(yīng)用的領(lǐng)域:
通過將深度學(xué)習(xí)概率性地看作有 GLM 疊加的模型,我們打開了許多統(tǒng)計(jì)模型的思路,包括指數(shù)簇模型(exponential family model)和異方差誤差(heteroscedastic errors)等。
貝葉斯層級模型和深度學(xué)習(xí)有很多相似的優(yōu)勢。貝葉斯層級模型包括額外的隨機(jī)層,因此也提供額外的可解釋性和靈活性。
另一個(gè)途徑是組合近端算法(combining proximal algorithms)和 MCMC。
通過鏈?zhǔn)椒▌t(即反向傳播算法)可以很容易獲得梯度信息,如今有很好的隨機(jī)方法擬合現(xiàn)存的神經(jīng)網(wǎng)絡(luò),如 MCMC、HMC、近端方法和 ADMM,它們都能大大減少深度學(xué)習(xí)的訓(xùn)練時(shí)間。
超參數(shù)調(diào)節(jié)
相比于傳統(tǒng)貝葉斯非參數(shù)方法,在貝葉斯非參數(shù)方法中使用超平面應(yīng)該產(chǎn)生良好的預(yù)測器。
深度學(xué)習(xí)在計(jì)算機(jī)軟件有很好的應(yīng)用,其可以用于貝葉斯計(jì)算(純 MCMC 模型計(jì)算太慢)。
用于調(diào)整超參數(shù)和最優(yōu)化有更好的貝葉斯算法。Langevin diffusion MCMC 、proximal MCMC 和哈密頓蒙特卡羅方法(HMC)可像 Hessian 信息那樣用導(dǎo)數(shù)表示。
我們不會(huì)搜索整個(gè)價(jià)值矩陣而希望得到均方誤差,但我們可以對這些參數(shù)進(jìn)一步添加正則項(xiàng)罰項(xiàng),并將其整合到算法中。MCMC 方法在過去 30 年中有很大的發(fā)展,在給定高性能計(jì)算下,我們現(xiàn)在可以在大數(shù)據(jù)集上實(shí)現(xiàn)高維后驗(yàn)推斷,貝葉斯推斷現(xiàn)在也有同樣的優(yōu)勢。此外,我們認(rèn)為深度學(xué)習(xí)模型在很多應(yīng)用場景下有很大的潛力。例如在金融中,深度學(xué)習(xí)是一種非線性因子模型,每一層捕捉不同的時(shí)間尺度效應(yīng)(time scale effects),時(shí)空數(shù)據(jù)(spatio-temporal data)也可以視為在空間—時(shí)間上的圖像,深度學(xué)習(xí)就提供了一種用于恢復(fù)非線性復(fù)雜關(guān)系的模式匹配技術(shù)。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/4574.html
摘要:百度網(wǎng)盤提取碼最近一直關(guān)注貪心學(xué)院的機(jī)器學(xué)習(xí)訓(xùn)練營,發(fā)現(xiàn)這門課講的很有深度,不僅適合職場也適合科研人員,加入行業(yè)拿到高薪僅僅是職業(yè)生涯的開始。 ??百度網(wǎng)盤??提取碼:u6C4最近一直關(guān)注貪心學(xué)院的機(jī)器學(xué)習(xí)訓(xùn)練營,發(fā)現(xiàn)這門課講的很有深度,不僅適合職場也適合科研人員,加入AI行業(yè)拿到高薪僅僅是職業(yè)生涯的開始?,F(xiàn)階段AI人才結(jié)...
摘要:康納爾大學(xué)數(shù)學(xué)博士博士后則認(rèn)為,圖神經(jīng)網(wǎng)絡(luò)可能解決圖靈獎(jiǎng)得主指出的深度學(xué)習(xí)無法做因果推理的核心問題。圖靈獎(jiǎng)得主深度學(xué)習(xí)的因果推理之殤年初,承接有關(guān)深度學(xué)習(xí)煉金術(shù)的辯論,深度學(xué)習(xí)又迎來了一位重要的批評者。 作為行業(yè)的標(biāo)桿,DeepMind的動(dòng)向一直是AI業(yè)界關(guān)注的熱點(diǎn)。最近,這家世界最較高級的AI實(shí)驗(yàn)室似乎是把他們的重點(diǎn)放在了探索關(guān)系上面,6月份以來,接連發(fā)布了好幾篇帶關(guān)系的論文,比如:關(guān)系歸...
摘要:近日,發(fā)表了一篇文章,詳細(xì)討論了為深度學(xué)習(xí)模型尋找較佳超參數(shù)集的有效策略。要知道,與機(jī)器學(xué)習(xí)模型不同,深度學(xué)習(xí)模型里面充滿了各種超參數(shù)。此外,在半自動(dòng)全自動(dòng)深度學(xué)習(xí)過程中,超參數(shù)搜索也是的一個(gè)非常重要的階段。 在文章開始之前,我想問你一個(gè)問題:你已經(jīng)厭倦了小心翼翼地照看你的深度學(xué)習(xí)模型嗎?如果是的話,那你就來對地方了。近日,F(xiàn)loydHub Blog發(fā)表了一篇文章,詳細(xì)討論了為深度學(xué)習(xí)模型尋...
摘要:機(jī)器學(xué)習(xí)算法類型從廣義上講,有種類型的機(jī)器學(xué)習(xí)算法。強(qiáng)化學(xué)習(xí)的例子馬爾可夫決策過程常用機(jī)器學(xué)習(xí)算法列表以下是常用機(jī)器學(xué)習(xí)算法的列表。我提供了對各種機(jī)器學(xué)習(xí)算法的高級理解以及運(yùn)行它們的代碼。決策樹是一種監(jiān)督學(xué)習(xí)算法,主要用于分類問題。 showImg(https://segmentfault.com/img/remote/1460000019086462); 介紹 谷歌的自動(dòng)駕駛汽車和機(jī)...
閱讀 1618·2021-11-22 13:53
閱讀 2848·2021-11-15 18:10
閱讀 2755·2021-09-23 11:21
閱讀 2491·2019-08-30 15:55
閱讀 475·2019-08-30 13:02
閱讀 752·2019-08-29 17:22
閱讀 1659·2019-08-29 13:56
閱讀 3455·2019-08-29 11:31