国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

關(guān)于Resnet殘差網(wǎng)絡(luò)的一些理解

antyiwei / 2156人閱讀

摘要:在當(dāng)前的背景下,卷積神經(jīng)網(wǎng)絡(luò)提出之后,深度成為人們要追求的目標(biāo)。同時,殘差網(wǎng)絡(luò)也很好的解決了梯度下降中的梯度彌散的問題。經(jīng)典網(wǎng)絡(luò)目前最主經(jīng)典的殘差網(wǎng)絡(luò)莫過于。

注:整理自各個博客,并且添加個人理解
隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和普及,網(wǎng)絡(luò)深度和架構(gòu)研究早已經(jīng)成為人們常見的問題,所以,現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)的趨勢發(fā)展趨勢就是:足夠深、足夠廣。足夠深就是網(wǎng)絡(luò)層數(shù)足夠深,足夠廣就意味著不能從傳統(tǒng)尺度來解決問題,而應(yīng)該是多尺度,也就是multi-scale。
但是隨著網(wǎng)絡(luò)的深入,一些經(jīng)典的問題也就隨之出現(xiàn),例如梯度彌散和梯度爆炸。這兩種問題都是由于神經(jīng)網(wǎng)絡(luò)的特殊結(jié)構(gòu)和特殊求參數(shù)方法造成的,也就是鏈?zhǔn)角髮?dǎo)的間接產(chǎn)物。

梯度彌散:當(dāng)使用反向傳播方法計算導(dǎo)數(shù)的時候,隨著網(wǎng)絡(luò)的深度的增加,反向傳播的梯度(從輸出層到網(wǎng)絡(luò)的最初幾層)的幅度值會急劇地減小。結(jié)果就造成了整體的損失函數(shù)相對于最初幾層的權(quán)重的導(dǎo)數(shù)非常小。這樣,當(dāng)使用梯度下降法的時候,最初幾層的權(quán)重變化非常緩慢,以至于它們不能夠從樣本中進(jìn)行有效的學(xué)習(xí)。這種問題通常被稱為“梯度的彌散”。
梯度爆炸:差梯度在網(wǎng)絡(luò)訓(xùn)練時被用來得到網(wǎng)絡(luò)參數(shù)更新的方向和幅度,進(jìn)而在正確的方向上以合適的幅度更新網(wǎng)絡(luò)參數(shù)。在深層網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)中,誤差梯度在更新中累積得到一個非常大的梯度,這樣的梯度會大幅度更新網(wǎng)絡(luò)參數(shù),進(jìn)而導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定。在極端情況下,權(quán)重的值變得特別大,以至于結(jié)果會溢出(NaN值,無窮與非數(shù)值)。當(dāng)梯度爆炸發(fā)生時,網(wǎng)絡(luò)層之間反復(fù)乘以大于1.0的梯度值使得梯度值成倍增長。

這兩個不良影響也常常困擾著卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計者和使用者,也成為人們不得不思考的問題。但是所幸的是,一些網(wǎng)絡(luò)的出現(xiàn)很好的解決了這些問題。最近學(xué)習(xí)的Resnet就有效的解決了這個問題。
Resnet在2015年提出之后,立馬獲得了當(dāng)年的Image圖像比賽第一名,并且準(zhǔn)確率奇高。

最初Resnet的提出目的并不是為了解決梯度彌散,有效的消除梯度彌散可以說是無心之舉。在當(dāng)前的背景下,卷積神經(jīng)網(wǎng)絡(luò)提出之后,深度成為人們要追求的目標(biāo)。但是隨著層數(shù)增加,就出現(xiàn)了學(xué)習(xí)退化的問題。

本來隨著網(wǎng)絡(luò)深度增加準(zhǔn)確率越來越好的網(wǎng)絡(luò)出現(xiàn)了詭異的變化,隨著后續(xù)的發(fā)現(xiàn),發(fā)現(xiàn)問題主要來自于兩個,第一個是恒等函數(shù)的問題,第二個就是來自于梯度爆炸和梯度彌散的問題。
深層網(wǎng)絡(luò)應(yīng)該優(yōu)于淺層網(wǎng)絡(luò),可以說是所有人都認(rèn)同的的事實,但是隨著網(wǎng)絡(luò)的加深,一些層通常是沒有必要出現(xiàn)的,如果訓(xùn)練好參數(shù)隨著后面的網(wǎng)絡(luò)擾動,會被類似于白噪音的問題使參數(shù)重新偏移變差。因此,人們想到了恒等函數(shù),也就是說,直接在后面幾層使得F(x)=x,來進(jìn)行等效傳遞。但是問題是,等效傳遞并不容易,更不用說Sigmoid函數(shù)等特殊函數(shù)曲線的存在。因此,利用殘差塊,可以完美的解決這個問題。

對于輸出函數(shù)變?yōu)榱薍(x),并且H(x)=F(x)+x。此時,為了使得進(jìn)行恒等變換,只用使F(x)足夠小就可以了,此時,輸出也就近似變成了H(x)=x。也就是說,假如優(yōu)化目標(biāo)函數(shù)是逼近一個恒等映射, 而不是0映射,那么學(xué)習(xí)找到對恒等映射的擾動會比重新學(xué)習(xí)一個映射函數(shù)要容易。
同時,殘差網(wǎng)絡(luò)也很好的解決了梯度下降中的梯度彌散的問題。當(dāng)我們進(jìn)行鏈?zhǔn)角髮?dǎo),來求得某個參數(shù)的偏導(dǎo)數(shù)的時候,在深層網(wǎng)絡(luò)總會遇到偏導(dǎo)結(jié)果較小,從而導(dǎo)致參數(shù)更新過小的情況。
例如:

當(dāng)網(wǎng)絡(luò)足夠深的時候,會出一下Loss函數(shù):

從而使得偏導(dǎo)結(jié)果:

非常小,相當(dāng)于原地踏步。因此,當(dāng)進(jìn)行殘差塊的增添之后,偏導(dǎo)結(jié)果如下所示:


此時,就不用再擔(dān)心梯度下降的相關(guān)問題。并且與此同時,函數(shù)的擬合F(x)=0會比F(x)=x更加容易,后者對參數(shù)的變化會更加敏感。總的來說,殘差學(xué)習(xí)再淺層的時候,學(xué)習(xí)是線性疊加,到深層后,F(xiàn)(x)會趨于零,從而使得殘差塊編程恒等映射,從而避免層數(shù)增加影響學(xué)習(xí)結(jié)果的情況。

經(jīng)典Resnet網(wǎng)絡(luò)

目前最主經(jīng)典的殘差網(wǎng)絡(luò)莫過于Resnet v2。由于ResNet的結(jié)構(gòu)有別于傳統(tǒng)的卷積結(jié)構(gòu),使得信號的前向傳播和梯度的反向傳播變得更復(fù)雜。為了穩(wěn)定訓(xùn)練時信號的前向傳播和梯度的反向傳播,從ResNet開始,網(wǎng)絡(luò)普遍使用Batch Normalization,因此,Resnet v2也采用了BN算法。
BN算法:我們在訓(xùn)練深度學(xué)習(xí)模型的時候,經(jīng)常會采用隨機梯度下降的方式,每次隨機選取訓(xùn)練數(shù)據(jù)中的一個小部分進(jìn)行求訓(xùn)練模型,經(jīng)過多步迭代后會逐漸手鏈,模型的loss會逐漸趨于穩(wěn)定,但由于只是一部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,還是會有一定起伏,一般訓(xùn)練誤差如下圖所示。

隨著神經(jīng)網(wǎng)絡(luò)的深度增加,也會出現(xiàn)梯度擴散和梯度爆炸的問題。

這里簡單解釋一下梯度擴散和梯度爆炸,隨著神經(jīng)網(wǎng)絡(luò)深度增加,每層計算誤差都會逐步縮小,這個主要跟我們選的激活函數(shù)有關(guān),鏈?zhǔn)椒▌t相乘之后,輸出層的很大的誤差,對前幾層帶來的影響會變得非常小,此時前幾層的梯度修正會非常小,梯度會趨于零,使得訓(xùn)練無效,這就是梯度消失gradient vanish,相反的則是梯度爆炸gradient explode。

改變激活函數(shù),比如說ReLu可以較好地避免梯度的問題,而這兩篇作者提出的batch normalization也可以解決這個問題。

BN的主要思想就是對每層輸入數(shù)據(jù)做標(biāo)準(zhǔn)化,使其以較小的方差集中在均值附近,具體方法如下圖:

在正向傳播的時候?qū)斎霐?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,求隨機梯度下降的一個batch進(jìn)行正規(guī)化可以大大減小計算量,同時作者為了避免數(shù)據(jù)整體影響,在最后還進(jìn)行了一個規(guī)模和位置的線性轉(zhuǎn)換,用以盡量保留原數(shù)據(jù)的方差與均值信息。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/19718.html

相關(guān)文章

  • 一文簡述ResNet及其多種變體

    摘要:一個簡單的解釋是,在論文和論文中,恒等映射的輸出被添加到下一個模塊,如果兩個層的特征映射有著非常不同的分布,那么這可能會阻礙信息流。 在 AlexNet [1] 取得 LSVRC 2012 分類競賽冠軍之后,深度殘差網(wǎng)絡(luò)(Residual Network, 下文簡寫為 ResNet)[2] 可以說是過去幾年中計算機視覺和深度學(xué)習(xí)領(lǐng)域最具開創(chuàng)性的工作。ResNet 使訓(xùn)練數(shù)百甚至數(shù)千層成為可能...

    suemi 評論0 收藏0
  • [ResNet系] 006 DPN

    摘要:和是兩個非常重要的網(wǎng)絡(luò),它們顯示了深層卷積神經(jīng)網(wǎng)絡(luò)的能力,并且指出使用極小的卷積核可以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。也有工作考察與的關(guān)系,與其相似,本文考察了與的關(guān)系。與的網(wǎng)絡(luò)架構(gòu)配置以及復(fù)雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...

    plus2047 評論0 收藏0
  • 經(jīng)典ResNet結(jié)果不能復(fù)現(xiàn)?何愷明回應(yīng):它經(jīng)受住了時間考驗

    摘要:大神何愷明受到了質(zhì)疑。今天,上一位用戶對何愷明的提出質(zhì)疑,他認(rèn)為何愷明年的原始?xì)埐罹W(wǎng)絡(luò)的結(jié)果沒有被復(fù)現(xiàn),甚至何愷明本人也沒有。我認(rèn)為,的可復(fù)現(xiàn)性經(jīng)受住了時間的考驗。 大神何愷明受到了質(zhì)疑。今天,Reddit 上一位用戶對何愷明的ResNet提出質(zhì)疑,他認(rèn)為:何愷明 2015 年的原始?xì)埐罹W(wǎng)絡(luò)的結(jié)果沒有被復(fù)現(xiàn),甚至何愷明本人也沒有。網(wǎng)友稱,他沒有發(fā)現(xiàn)任何一篇論文復(fù)現(xiàn)了原始 ResNet 網(wǎng)絡(luò)的...

    Ilikewhite 評論0 收藏0
  • [ResNet系] 004 WRN

    摘要:顯示了殘差連接可以加速深層網(wǎng)絡(luò)的收斂速度,考察了殘差網(wǎng)絡(luò)中激活函數(shù)的位置順序,顯示了恒等映射在殘差網(wǎng)絡(luò)中的重要性,并且利用新的架構(gòu)可以訓(xùn)練極深層的網(wǎng)絡(luò)。包含恒等映射的殘差有助于訓(xùn)練極深層網(wǎng)絡(luò),但同時也是殘差網(wǎng)絡(luò)的一個缺點。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe實現(xiàn):https://github...

    hankkin 評論0 收藏0

發(fā)表評論

0條評論

antyiwei

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<