摘要:前面層中的以類別無關的方式增強可共享的低層表示的質(zhì)量。通過調(diào)整網(wǎng)絡各層間的連接機制來提升深層網(wǎng)絡的學習和表示性能?;径际浅R?guī)處理和訓練設置。根據(jù)輸入動態(tài)調(diào)整各通道的特征,增強網(wǎng)絡的表示能力。
SENet
Squeeze-and-Excitation Networks
Jie Hu, Li Shen, Gang Sun
卷積神經(jīng)網(wǎng)絡顧名思義就是依賴卷積操作,使用局部感受區(qū)域(local receptive field)的思想融合空間信息和通道信息來提取包含信息的特征。有很多工作從增強空間維度編碼的角度來提升網(wǎng)絡的表示能力,本文主要聚焦于通道維度,并提出一種新的結構單元——“Squeeze-and-Excitation(SE)”單元,對通道間的依賴關系進行建模,可以自適應的調(diào)整各通道的特征響應值。如果將SE block添加到之前的先進網(wǎng)絡中,只會增加很小的計算消耗,但卻可以極大地提升網(wǎng)絡性能。依靠SENet作者獲得了ILSVRC2017分類任務的第一名,top-5錯誤率為2.251%。
1. Introduction每個卷積層有若干濾波器,可以學習表達包含所有通道的局部空間連接模式。也就是說,卷積濾波器提取局部感受區(qū)域中的空間和通道的融合信息。再加上非線性激活層和降采樣層,CNN可以獲得具有全局感受區(qū)域的分層模式來作為圖像的描述。最近的一些工作表明,可以通過加入有助于獲取空間相關性的學習機制來改善網(wǎng)絡的性能,而且不需要額外的監(jiān)督。例如Inception架構,通過在模塊中加入多尺度處理來提高性能。另有探索更好的空間相關性的模型或者添加空間注意力的一些工作。
與上述方法不同,本文主要探索網(wǎng)絡架構設計的另一個方面——通道關聯(lián)性。本文提出一種新的網(wǎng)絡單元——“Squeeze-and-Excitation(SE)” block,希望通過對各通道的依賴性進行建模以提高網(wǎng)絡的表示能力,并且可以對特征進行逐通道調(diào)整,這樣網(wǎng)絡就可以學習通過全局信息來有選擇性的加強包含有用信息的特征并抑制無用特征。
SE block的基本結構見圖1。第一步squeeze操作,將各通道的全局空間特征作為該通道的表示,形成一個通道描述符;第二步excitation操作,學習對各通道的依賴程度,并根據(jù)依賴程度的不同對特征圖進行調(diào)整,調(diào)整后的特征圖就是SE block的輸出。
前面層中的SE block以類別無關(class agnostic)的方式增強可共享的低層表示的質(zhì)量。越后面的層SE block越來越類別相關。SE block重新調(diào)整特征的益處可以在整個網(wǎng)絡中積累。SE block設計簡單,可以很容易地加入到已有的網(wǎng)絡中,只增加少量的模型復雜度和計算開支,另外對不同數(shù)據(jù)集的泛化能力較強。作者依靠SENet取得了ILSVRC2017分類任務的第一名。官方實現(xiàn)(Caffe)源碼地址:https://github.com/hujie-fran... 。
2. Related WorkDeep architectures
有很多工作通過調(diào)整卷積神經(jīng)網(wǎng)絡架構使模型更容易地學習深層特征以提升模型性能。VGG和Inception網(wǎng)絡證明可以通過增加深度來提升性能。Batch normalization (BN)在網(wǎng)絡中添加可以調(diào)節(jié)輸入數(shù)據(jù)的單元來穩(wěn)定學習過程,改善梯度在網(wǎng)絡中的傳播,使得更深層的網(wǎng)絡也可以工作。ResNet、ResNet-v2在網(wǎng)絡中加入恒等映射形式的跳躍連接,使網(wǎng)絡學習殘差函數(shù),極大推進了網(wǎng)絡架構向更深層的發(fā)展。DenseNet、DPN通過調(diào)整網(wǎng)絡各層間的連接機制來提升深層網(wǎng)絡的學習和表示性能。
另一個方向是調(diào)整網(wǎng)絡中模塊的形式。分組卷積(grouped convolutions)可以用于增加基數(shù)(cardinality),如Deep roots、ResNeXt中所示,網(wǎng)絡可以學習到更豐富的表示。多分支卷積(multi-branch convolutions)可以視為分組卷積的泛化,網(wǎng)絡模塊可以進行更靈活多變的操作,如Inception系列。跨通道相關是一種新的特征組合方式,可以獨立于空間結構(如Xception),或者使用1x1卷積進行處理(如NIN),一般來說這些工作主要是為了降低模型和計算復雜度。這種方法的前提假設是通道是實例無關(instance-agnostic)的,也就是說輸出對于輸入數(shù)據(jù)各通道的依賴性是相同的,不是類別相關的。與之相反,本文提出一種新的機制,使用全局信息對各通道動態(tài)的非線性的依賴性進行建模,可以改善學習過程并提升網(wǎng)絡的表示能力。
Attention and gating mechanisms
注意力機制(attention)引導計算資源偏向輸入信號中信息量最大的部分,近幾年開始大量用于深度神經(jīng)網(wǎng)絡中,在很多任務中對性能有極大提升。它一般是和門限函數(shù)(如softmax、sigmoid)或者序列方法聯(lián)合使用。highway網(wǎng)絡使用門限機制來調(diào)節(jié)快捷連接,Residual attention network for image classification中介紹了一種trunk-and-mask注意力機制用于沙漏模型(hourglass module),成功的用于語義分割任務。SE block是一種輕量級的門限機制,專門用于對各通道的關聯(lián)性進行建模。
卷積層的輸出并沒有考慮對各通道的依賴性,本文的目標就是讓網(wǎng)絡有選擇性的增強信息量大的特征,使得后續(xù)處理可以充分利用這些特征,并對無用特征進行抑制。
3.1 Squeeze: Global Information Embedding首先考察輸出特征每個通道的信號,壓縮(squeeze)全局空間信息為通道描述符,使用全局平均池化來生成各通道的統(tǒng)計量。
3.2 Excitation: Adaptive Recalibration第二就是考察各通道的依賴程度,實現(xiàn)函數(shù)有兩個標準:一是要靈活,二是要學習一個非互斥的關系,因為可能多個通道都會對結果有影響。本文使用帶sigmoid激活函數(shù)的門限機制來實現(xiàn)。為了限制模型復雜度并增強泛化能力,門限機制中使用bottleneck形式的兩個全連接層,第一個FC層降維至1/r,r為超參數(shù),本文取16,具體見6.3實驗。最后的sigmoid函數(shù)就是各通道的權重,根據(jù)輸入數(shù)據(jù)調(diào)節(jié)各通道特征的權重,有助于增強特征的可分辨性。
3.3 Exemplars: SE-Inception and SE-ResNet在Inception網(wǎng)絡和ResNet網(wǎng)絡中加入SE block,具體見圖2、圖3。
對添加了SE block的網(wǎng)絡的具體配置見表1。
每個SE block中包含一個全局平均池化操作,兩個小的全連接層,最后一個簡單的逐通道縮放操作,全部合起來在ResNet-50的基礎上增加了0.26%的計算量。新添加的參數(shù)量主要來自于兩個全連接層,ResNet-50增加了約10%,大多數(shù)都是來自最后階段,此時的通道維度很大。但是實驗發(fā)現(xiàn)如果去掉最后階段的SE block性能并沒有太大影響,而新增加的參數(shù)量則會減小到約4%。
5. Implementation基本都是常規(guī)處理和訓練設置。采用了Relay backpropagation for effective learning of deep convolutional neural networks中的數(shù)據(jù)平衡策略。
6. Experiments 6.1 ImageNet Classification本文實驗的不同網(wǎng)絡的配置見表2,訓練曲線見圖4-6。
在ImageNet驗證集上不同網(wǎng)絡的表現(xiàn)見表3。
不同網(wǎng)絡的性能對比見表4。
Reduction ratio
3.2中討論的降維系數(shù)是超參數(shù),它不同取值對網(wǎng)絡性能的影響見表5。
為了權衡準確率與復雜度,本文選取r=16。
The role of Excitation
考察自門限(self-gating)excitation機制。選取四個類別(如圖7),分別考察不同層中的SE block的平均激活值,其分布如圖8所示。
通過觀察圖8中不同層SE block激活值的分布情況,發(fā)現(xiàn)1)前面層中的分布基本一樣,說明這一階段的特征是類別無關的;2)后續(xù)層中分布越來越類別相關,每個類別對特征由不同的選擇;3)SE_5_2和SE_5_3中的分布也基本一致,說明這兩層對網(wǎng)絡重新調(diào)整的重要性不高,可以去掉這兩層中的SE block以減少參數(shù)量,如第4章中所述。
7. ConclusionSE block根據(jù)輸入動態(tài)調(diào)整各通道的特征,增強網(wǎng)絡的表示能力。另外也可以用于輔助網(wǎng)絡修剪/壓縮的工作。
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19653.html
摘要:分組卷積的思想影響比較深遠,當前一些輕量級的網(wǎng)絡,都用到了分組卷積的操作,以節(jié)省計算量。得到新的通道之后,這時再對這批新的通道進行標準的跨通道卷積操作。 CNN從2012年的AlexNet發(fā)展至今,科學家們發(fā)明出各種各樣的CNN模型,一個比一個深,一個比一個準確,一個比一個輕量。作者對近幾年一些具有變革性的工作進行簡單盤點,從這些充滿革新性的工作中探討日后的CNN變革方向。本文只介紹其中具有...
摘要:潘新鋼等發(fā)現(xiàn),和的核心區(qū)別在于,學習到的是不隨著顏色風格虛擬性現(xiàn)實性等外觀變化而改變的特征,而要保留與內(nèi)容相關的信息,就要用到。 大把時間、大把GPU喂進去,訓練好了神經(jīng)網(wǎng)絡。接下來,你可能會迎來傷心一刻:同學,測試數(shù)據(jù)和訓練數(shù)據(jù),色調(diào)、亮度不太一樣。同學,你還要去搞定一個新的數(shù)據(jù)集。是重新搭一個模型呢,還是拿來新數(shù)據(jù)重新調(diào)參,在這個已經(jīng)訓練好的模型上搞遷移學習呢?香港中文大學-商湯聯(lián)合實驗...
閱讀 3313·2023-04-26 00:58
閱讀 1268·2021-09-22 16:04
閱讀 3311·2021-09-02 15:11
閱讀 1554·2019-08-30 15:55
閱讀 2339·2019-08-30 15:55
閱讀 3248·2019-08-23 18:41
閱讀 3458·2019-08-23 18:18
閱讀 2752·2019-08-23 17:53