摘要:大量實驗結果證明了恒等映射的重要性。本文實驗了不同形式的,發現使用恒等映射的網絡性能最好,誤差減小最快且訓練損失最低。為了使得是恒等映射,需要調整和帶權值層的位置。恒等映射形式的快捷連接和預激活對于信號在網絡中的順暢傳播至關重要。
ResNet-v2
Identity Mappings in Deep Residual Networks
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
Caffe實現:https://github.com/binLearnin...
摘要近期已經涌現出很多以深度殘差網絡(deep residual network)為基礎的極深層的網絡架構,在準確率和收斂性等方面的表現都非常引人注目。本文主要分析殘差網絡基本構件(block)中的信號傳播,我們發現當使用恒等映射(identity mapping)作為快捷連接(skip connection)并且將激活函數移至加法操作后面時,前向-反向信號都可以在兩個block之間直接傳播而不受到任何變換操作的影響。大量實驗結果證明了恒等映射的重要性。本文根據這個發現重新設計了一種殘差網絡基本單元(unit),使得網絡更易于訓練并且泛化性能也得到提升。官方實現(Torch)的源碼地址:https://github.com/KaimingHe/... 。
1. Introduction深度殘差網絡(ResNet)由“殘差單元(Residual Units)”堆疊而成,每個單元可以表示為:
其中F是殘差函數,在ResNet中,h(xl)=xl是恒等映射,f是ReLU激活函數。
在ImageNet數據集和COCO數據集上,超過1000層的殘差網絡都取得了最優的準確率。殘差網絡的核心思想是在h(xl)的基礎上學習附加的殘差函數F,其中很重要的選擇就是使用恒等映射h(xl)=xl,這可以通過在網絡中添加恒等快捷連接(skip connection / shortcut)來實現。
本文中主要著眼于分析在深度殘差網絡中構建一個信息“直接”傳播的路徑——不只是在殘差單元直接,而是在整個網絡中信息可以“直接”傳播。如果h(xl)和f(yl)都是恒等映射,那么信號可以在單元間直接進行前向-反向傳播。實驗證明基本滿足上述條件的網絡架構一般更容易訓練。本文實驗了不同形式的h(xl),發現使用恒等映射的網絡性能最好,誤差減小最快且訓練損失最低。這些實驗說明“干凈”的信息通道有助于優化。各種不同形式的h(xl)見圖1,2,4中的灰色箭頭所示。
為了構建f(yl)=yl成為恒等映射,我們將激活函數(ReLU和BN)移到權值層之前,形成一種“預激活(pre-activation)”的方式,而不是常規的“后激活(post-activation)”方式,這樣就設計出了一種新的殘差單元(見圖1(b))。基于這種新的單元我們在CIFAR-10/100數據集上使用1001層殘差網絡進行訓練,發現新的殘差網絡比之前的更容易訓練并且泛化性能更好。另外還考察了200層新殘差網絡在ImageNet上的表現,原先的殘差網絡在這個層數之后開始出現過擬合的現象。
2. Analysis of Deep Residual Networks原先的殘差網絡中的殘差單元可以表示為:
如果h、f都是恒等映射,那么公式(1)(2)可以合并為:
那么任意深層的單元L與淺層單元l之間的關系為:
公式(4)有兩個特性:(i)深層單元的特征可以由淺層單元的特征和殘差函數相加得到;(ii)任意深層單元的特征都可以由起始特征x0與先前所有殘差函數相加得到,這與普通(plain)網絡不同,普通網絡的深層特征是由一系列的矩陣向量相乘得到。殘差網絡是連加,普通網絡是連乘。
反向傳播時的計算公式如下:
從公式(5)中可以看出,反向傳播也是兩條路徑,其中之一直接將信息回傳,另一條會經過所有的帶權重層。另外可以注意到第二項的值在一個mini-batch中不可能一直是1,也就是說回傳的梯度不會消失,不論網絡中的權值的值再小都不會發生梯度消失現象。
3. On the Importance of Identity Skip Connections首先考察恒等映射的重要性。假設將恒等映射簡單的改為h(xl)=λxl,即:
如公式(3)到(4)一樣遞歸調用公式(6),得到:
那么這種情況下的反向傳播計算公式為:
假設模型是一個極深層的網絡,考察第一個連乘的項,如果所有的λ都大于1,那么這一項會指數級增大;如果所有λ都小于1,那么這一項會很小甚至消失,會阻礙信號直接傳播,而強制信號通過帶權值的層進行傳播。實驗表明這種方式會導致模型很難優化。不同形式的變換映射都會妨礙信號的傳播,進而影響訓練進程。
3.1 Experiments on Skip Connections考察使用不同形式映射(見圖2)的網絡的性能,具體結果見表1,在訓練過程中的誤差變化見圖3。
在使用exclusive gating時,偏置bg的初始值對于網絡性能的影響很大。
3.2 Discussions快捷連接中的乘法操作(scaling, gating, 1×1 convolutions, and dropout)會妨礙信號傳播,導致優化出現問題。
值得注意的是gating和1×1 convolutions快捷連接引進了更多的參數,增強了模型的表示能力,但是它們的訓練誤差反而比恒等映射更大,這說明是退化現象導致了這些模型的優化問題。
第3章討論了公式(1)中的h是恒等映射的重要性,現在討論公式(2)中的f,如果f也是恒等映射的話網絡性能會不會也有提升。為了使得f是恒等映射,需要調整ReLU、BN和帶權值層的位置。
4.1 Experiments on Activation下面考察多種組織方式(見圖4),使用不同激活方式的網絡的性能表現見表2。
BN after addition
效果比基準差,BN層移到相加操作后面會阻礙信號傳播,一個明顯的現象就是訓練初期誤差下降緩慢。
ReLU before addition
這樣組合的話殘差函數分支的輸出就一直保持非負,這會影響到模型的表示能力,而實驗結果也表明這種組合比基準差。
Post-activation or pre-activation?
原來的設計中相加操作后面還有一個ReLU激活函數,這個激活函數會影響到殘差單元的兩個分支,現在將它移到殘差函數分支上,快捷連接分支不再受到影響。具體操作如圖5所示。
根據激活函數與相加操作的位置關系,我們稱之前的組合方式為“后激活(post-activation)”,現在新的組合方式稱之為“預激活(pre-activation)”。原來的設計與預激活殘差單元之間的性能對比見表3。預激活方式又可以分為兩種:只將ReLU放在前面,或者將ReLU和BN都放到前面,根據表2中的結果可以看出full pre-activation的效果要更好。
使用預激活有兩個方面的優點:1)f變為恒等映射,使得網絡更易于優化;2)使用BN作為預激活可以加強對模型的正則化。
Ease of optimization
這在訓練1001層殘差網絡時尤為明顯,具體見圖1。使用原來設計的網絡在起始階段誤差下降很慢,因為f是ReLU激活函數,當信號為負時會被截斷,使模型無法很好地逼近期望函數;而使用預激活的網絡中的f是恒等映射,信號可以在不同單元直接直接傳播。我們使用的1001層網絡優化速度很快,并且得到了最低的誤差。
f為ReLU對淺層殘差網絡的影響并不大,如圖6-right所示。我們認為是當網絡經過一段時間的訓練之后權值經過適當的調整,使得單元輸出基本都是非負,此時f不再對信號進行截斷。但是截斷現象在超過1000層的網絡中經常發生。
Reducing overfitting
觀察圖6-right,使用了預激活的網絡的訓練誤差稍高,但卻得到更低的測試誤差,我們推測這是BN層的正則化效果所致。原來的設計中雖然也用到了BN,但歸一化后的信號很快與快捷連接通道中的相加了,而相加后的信號是沒有歸一化的。本文新設計的預激活的單元中的所有權值層的輸入都是歸一化的信號。
表4、表5分別展示了不同網絡在不同數據集上的表現。使用的預激活單元的更深層的殘差網絡都取得了最好的成績。
Computational Cost
本文提出的模型的計算復雜度正比于網絡深度,在ImageNet數據集上,200層的殘差網絡使用8塊GPU耗時約3周完成訓練。
恒等映射形式的快捷連接和預激活對于信號在網絡中的順暢傳播至關重要。
另附件介紹了各種網絡的實現細節。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19630.html
摘要:顯示了殘差連接可以加速深層網絡的收斂速度,考察了殘差網絡中激活函數的位置順序,顯示了恒等映射在殘差網絡中的重要性,并且利用新的架構可以訓練極深層的網絡。包含恒等映射的殘差有助于訓練極深層網絡,但同時也是殘差網絡的一個缺點。 WRN Wide Residual NetworksSergey Zagoruyko, Nikos Komodakis Caffe實現:https://github...
摘要:本文提出的網絡名為,意為維度基數。在空間通道維度分解網絡,減少冗余,可以對網絡進行加速或精簡。復雜度不變的情況下,隨著基數的增大錯誤率持續減小。考察增加深度寬度基數對網絡性能的提升。 ResNeXt Aggregated Residual Transformations for Deep Neural NetworksSaining Xie, Ross Girshick, Piotr ...
摘要:將這些需要保留的信息直接通過恒等映射進行傳輸,展示了中的很多層對最終的結果影響極小,可以在訓練時隨機丟棄部分層。得益于密集連接的方式,可以同時具有恒等映射深度監督和深度多樣性的特性。 DenseNet Densely Connected Convolutional NetworksGao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens ...
摘要:和是兩個非常重要的網絡,它們顯示了深層卷積神經網絡的能力,并且指出使用極小的卷積核可以提高神經網絡的學習能力。也有工作考察與的關系,與其相似,本文考察了與的關系。與的網絡架構配置以及復雜度見表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...
摘要:前面層中的以類別無關的方式增強可共享的低層表示的質量。通過調整網絡各層間的連接機制來提升深層網絡的學習和表示性能。基本都是常規處理和訓練設置。根據輸入動態調整各通道的特征,增強網絡的表示能力。 SENet Squeeze-and-Excitation NetworksJie Hu, Li Shen, Gang Sun 摘要 卷積神經網絡顧名思義就是依賴卷積操作,使用局部感受區域(loc...
閱讀 568·2023-04-26 02:58
閱讀 2307·2021-09-27 14:01
閱讀 3608·2021-09-22 15:57
閱讀 1172·2019-08-30 15:56
閱讀 1047·2019-08-30 15:53
閱讀 792·2019-08-30 15:52
閱讀 648·2019-08-26 14:01
閱讀 2165·2019-08-26 13:41