[ResNet系] 005 DenseNet

CODING 發(fā)布于2019-06-26 18:17 / 3201人閱讀

摘要：將這些需要保留的信息直接通過(guò)恒等映射進(jìn)行傳輸，展示了中的很多層對(duì)最終的結(jié)果影響極小，可以在訓(xùn)練時(shí)隨機(jī)丟棄部分層。得益于密集連接的方式，可以同時(shí)具有恒等映射深度監(jiān)督和深度多樣性的特性。

DenseNet

Densely Connected Convolutional Networks
Gao Huang, Zhuang Liu, Kilian Q. Weinberger, Laurens van der Maaten

Caffe實(shí)現(xiàn)：https://github.com/binLearnin...

摘要

近期的一些工作表明，如果在網(wǎng)絡(luò)層之間加上快捷連接（shorter connections），那么卷積網(wǎng)絡(luò)可以設(shè)計(jì)得更深層、取得更高的準(zhǔn)確率、訓(xùn)練也更高效。本文提出一種密集卷積網(wǎng)絡(luò)（Dense Convolutional Network，DenseNet），網(wǎng)絡(luò)中的層會(huì)與它之前的所有層直接連接。具有L層的傳統(tǒng)卷積網(wǎng)絡(luò)中有L條連接，而DenseNet中有L(L+1)/2條直接連接線路。對(duì)于網(wǎng)絡(luò)中的每一層，在它之前的所有層所生成的特征圖（feature-maps）都會(huì)作為該層的輸入。DenseNet的優(yōu)點(diǎn)有：緩解梯度消失問(wèn)題，增強(qiáng)特征在網(wǎng)絡(luò)中的傳輸，特征可重復(fù)利用，大幅降低網(wǎng)絡(luò)參數(shù)數(shù)量。我們?cè)谒膫€(gè)benchmark數(shù)據(jù)集（CIFAR-10，CIFAR-100，SVHN and ImageNet）上評(píng)估網(wǎng)絡(luò)性能，DenseNet相比于之前的大多數(shù)先進(jìn)網(wǎng)絡(luò)都有較大提升。官方實(shí)現(xiàn)（Caffe）的源碼地址：https://github.com/liuzhuang1... 。

1. Introduction

CNN在最近才真正是“深度”網(wǎng)絡(luò)，Hightway Networks和ResNet是最早突破100層的網(wǎng)絡(luò)架構(gòu)。隨著網(wǎng)絡(luò)深度的增加，一個(gè)新問(wèn)題出現(xiàn)了：輸入的信息或者反傳的梯度在經(jīng)過(guò)多個(gè)網(wǎng)絡(luò)層之后可能會(huì)消失。最近的多項(xiàng)工作都可以用來(lái)解決這個(gè)問(wèn)題，比如ResNet、Hightway Networks、隨機(jī)深度的ResNet、FractalNet等，這些網(wǎng)絡(luò)架構(gòu)都有一個(gè)共同點(diǎn)：層之間都有直連的線路。
本文提出一種新的連接方式：為了最大化網(wǎng)絡(luò)層間的信息傳輸，所有層（具有相同特征圖空間尺寸）均加上快捷連接，如圖1所示。

ResNet使用加法操作來(lái)連接不同分支的輸出，而DenseNet使用沿通道維度串聯(lián)的方式來(lái)整合輸出。由于這種密集的連接方式，我們稱本文的網(wǎng)絡(luò)為Dense Convolutional Network（DenseNet）。
DenseNet需要的參數(shù)規(guī)模比傳統(tǒng)的卷積網(wǎng)絡(luò)更小，這是因?yàn)樗恍枰匦聦W(xué)習(xí)那些冗余的特征圖。傳統(tǒng)的前饋架構(gòu)可以視作帶狀態(tài)的算法，狀態(tài)在層間進(jìn)行傳遞。每一層都會(huì)對(duì)狀態(tài)做一些變化，但也會(huì)保留一些必要的信息。ResNet將這些需要保留的信息直接通過(guò)恒等映射進(jìn)行傳輸，deep networks with stochastic depth展示了ResNet中的很多層對(duì)最終的結(jié)果影響極小，可以在訓(xùn)練時(shí)隨機(jī)丟棄部分層。如此一來(lái)ResNet中的狀態(tài)和（展開(kāi)的）RNN就很相似，但是ResNet中每一層的參數(shù)不是共享的，所以中的參數(shù)量要大得多。DenseNet將每一層新添加的信息和需要保留的信息區(qū)分開(kāi)來(lái)。DenseNet中的層可以很精簡(jiǎn)（比如每一層只產(chǎn)生12個(gè)特征圖），每層只添加少量的特征圖到網(wǎng)絡(luò)的“集體知識(shí)（collective knowledge）”中，其余的特征圖保存不變，分類器最終的決策依賴于網(wǎng)絡(luò)中的所有特征圖。
除了對(duì)參數(shù)的有效利用之外，DenseNet還有一個(gè)很大的優(yōu)點(diǎn)，它可以改進(jìn)信息和梯度在網(wǎng)絡(luò)中的傳輸，使得網(wǎng)絡(luò)更易于優(yōu)化。每一層都可以直接得到損失函數(shù)的梯度以及原始的輸入信號(hào)，就像隱式的深度監(jiān)督（deep supervision）。這有助于訓(xùn)練更深層的網(wǎng)絡(luò)。另外我們還發(fā)現(xiàn)密集連接有一定的正則化效果，在訓(xùn)練集規(guī)模比較小時(shí)可以避免過(guò)擬合。

2. Related Work

FCN等網(wǎng)絡(luò)通過(guò)快捷連接（skip-connnection）將網(wǎng)絡(luò)中的多級(jí)特征進(jìn)行組合，可有效提升網(wǎng)絡(luò)性能。AdaNet也提出一種跨層連接的網(wǎng)絡(luò)架構(gòu)。Highway Network是第一個(gè)可以有效訓(xùn)練超過(guò)100層的網(wǎng)絡(luò)結(jié)構(gòu)。ResNet將Highway Network中的門(mén)限分路直接改為恒等映射，在多個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域取得極大的性能提升。隨機(jī)深度ResNet通過(guò)隨機(jī)丟棄部分層來(lái)改進(jìn)訓(xùn)練過(guò)程，成功訓(xùn)練了超過(guò)1000層的網(wǎng)絡(luò)，這個(gè)工作說(shuō)明并不是所有層都是必須的，也就是說(shuō)深度殘差網(wǎng)絡(luò)中存在著大量冗余，DenseNet的部分靈感來(lái)自于這個(gè)觀察。預(yù)激活（pre-activation）的ResNet-v2也可以訓(xùn)練出超過(guò)1000層的網(wǎng)絡(luò)。
除了增加網(wǎng)絡(luò)深度外，還有一些網(wǎng)絡(luò)是從增加網(wǎng)絡(luò)寬度入手。GoogLeNet中的Inception模塊將不同尺寸卷積核產(chǎn)生的特征圖相連接作為輸出。Resnet in Resnet (RiR)提出了一種更寬的殘差block。Wide Residual Networks(WRN)展示了只要?dú)埐罹W(wǎng)絡(luò)深度足夠，通過(guò)簡(jiǎn)單的每層的增加濾波器數(shù)量就可以提高網(wǎng)絡(luò)性能。FractalNet使用更寬的網(wǎng)絡(luò)結(jié)構(gòu)也取得了很好的效果。
不同于從極深/寬的網(wǎng)絡(luò)中獲取更強(qiáng)的表示能力，DenseNet致力于探索特征重復(fù)使用（feature reuse）的潛力，同時(shí)使用精簡(jiǎn)的網(wǎng)絡(luò)，使得模型更易于優(yōu)化并且具有很高的參數(shù)利用率。連接不同層所產(chǎn)生的特征圖可以增加后續(xù)層輸入的多樣性并提高效率，這是與ResNet最大的不同之處。Inception網(wǎng)絡(luò)也是連接不同層所產(chǎn)生的特征圖，但是DenseNet更加簡(jiǎn)單高效。
還有一些網(wǎng)絡(luò)架構(gòu)也有很好的性能，比如Network in Network (NIN)、Deeply Supervised Network (DSN)、Ladder Networks、Deeply-Fused Nets (DFNs)等。

3. DenseNets

ResNets
ResNet在層間中加入一個(gè)恒等映射的快捷連接：

ResNet的優(yōu)點(diǎn)是后面層中的梯度可以通過(guò)恒等函數(shù)直接傳輸?shù)角懊娴膶印５?ResNet中恒等連接的輸出與殘差函數(shù)的輸出通過(guò)加法操作進(jìn)行連接，可能會(huì)影響網(wǎng)絡(luò)中的信息流動(dòng) 。
DenseNet
DenseNet中的每一層與它所有的后續(xù)層都有直接連接，如圖1所示，也就是說(shuō)每一層的輸入包含它之前所有層所產(chǎn)生的特征圖：

為了便于實(shí)現(xiàn)，將公式(2)中的輸入連接為一個(gè)多帶帶的張量。
Composite function
與ResNet-v2中一樣，殘差函數(shù)由單個(gè)連續(xù)操作組成：batch normalization (BN)，rectified linear unit (ReLU)，3×3 convolution (Conv)。
Pooling layers
DenseNet將網(wǎng)絡(luò)分為多個(gè)密集連接的dense block，如圖2所示，每個(gè)block之間加入一個(gè)transition layer用于改變特征圖尺寸，transition layer由batch normalization (BN)，1x1 convolution (Conv)，2×2 average pooling組成。

Growth rate
引入一個(gè)新的超參數(shù)growth rate，表示每個(gè)殘差函數(shù)H產(chǎn)生的特征圖數(shù)量，本文中以k表示。為了防止網(wǎng)絡(luò)太寬并提高參數(shù)利用率，k的取值不應(yīng)太大，一般12,16即可。可以將特征圖視為網(wǎng)絡(luò)的全局狀態(tài)，每層都會(huì)新添加k個(gè)特征圖，那么growth rate就可以控制每一層可以向全局狀態(tài)中添加多少新的信息。
Bottleneck layers
雖然每一層只產(chǎn)生k個(gè)特征圖，但加起來(lái)的總量是很可觀的，導(dǎo)致后續(xù)層的輸入量太大。本文使用bottleneck layer（1x1-3x3-1x1）來(lái)解決這一問(wèn)題。第一個(gè)1x1卷積層可以減少輸入特征圖的數(shù)量，以此來(lái)提高計(jì)算效率。本文將使用了bottleneck layer的模型表示為DenseNet-B。除非另有說(shuō)明，本文所有bottleneck layer中的第一個(gè)1x1卷積層將輸入特征圖減少到4k個(gè)。
Compression
為了進(jìn)一步精簡(jiǎn)網(wǎng)絡(luò)，在transition layer中也減少一定比例的特征圖，本文中設(shè)置該比例為0.5也就是減少一半的特征圖。本文將同時(shí)使用Bottleneck layers和Compression的模型表示為DenseNet-BC。
Implementation Details
具體見(jiàn)表1。

4. Experiments 4.3 Classification Results on CIFAR and SVHN

結(jié)果見(jiàn)表2。

Accuracy
250層DenseNet-BC在SVHN上的表現(xiàn)不佳，可能是因?yàn)镾VHN相對(duì)比較簡(jiǎn)單，極深層的網(wǎng)絡(luò)出現(xiàn)了過(guò)擬合的現(xiàn)象。
Capacity
DenseNet隨著L和k的增大性能也持續(xù)提升，說(shuō)明DenseNet可以加深/寬來(lái)提高表示能力，也可以看出DenseNet沒(méi)有出現(xiàn)過(guò)擬合或者優(yōu)化困難的現(xiàn)象。
Parameter Efficiency
DenseNet的參數(shù)利用率比其他模型更高，尤其是DenseNet-BC。
Overfitting
參數(shù)利用率高的一個(gè)正面影響就是DenseNet不易發(fā)生過(guò)擬合現(xiàn)象，DenseNet-BC也可以避免過(guò)擬合。

4.4 Classification Results on ImageNet

與ResNet的比較見(jiàn)圖3。

5. Discussion

Model compactness
DenseNet可以重復(fù)利用前面層的特征圖，并且使用更加精簡(jiǎn)的模型。圖4展示了不同網(wǎng)絡(luò)的參數(shù)使用率。從圖中可以看出，DenseNet-BC是參數(shù)利用率最高的模型。這個(gè)結(jié)果也符合圖3中的趨勢(shì)。圖4-right顯示了只有0.8M可訓(xùn)練參數(shù)的DenseNet-BC性能可以匹敵包含10.2M參數(shù)的1001層ResNet。

Implicit Deep Supervision
DenseNet性能的提升也可能得益于隱式的深度監(jiān)督機(jī)制，每一層都可以通過(guò)快捷連接直接從損失函數(shù)層得到梯度（額外的監(jiān)督信號(hào)）。deeply-supervised nets (DSN)中解釋了深度監(jiān)督的優(yōu)勢(shì)，相比較而言DenseNet中的監(jiān)督信號(hào)更加簡(jiǎn)單，所有層都是從同一個(gè)損失函數(shù)層接收梯度。
Stochastic vs. deterministic connection
DenseNet在一定程度上受到了隨機(jī)深度ResNet的啟發(fā)。
Feature Reuse
DenseNet中的每一層可以接收到它之前的所有層所產(chǎn)生的特征圖（有時(shí)要經(jīng)過(guò)transition layers）。為了驗(yàn)證網(wǎng)絡(luò)是否受益于該機(jī)制，針對(duì)同一block中的每一層，計(jì)算該層與它前面s層輸出上的權(quán)值的絕對(duì)值均值，圖5展示了三個(gè)dense block中每一層的情況，權(quán)值的絕對(duì)值均值可以考察該層對(duì)之前層的依賴程度。

從圖5中可以看出：
1.同一block中的每一層在多個(gè)輸入上都有權(quán)值。這說(shuō)明在同一個(gè)block中，最早期提取的特征也會(huì)被最后的層直接利用到。
2.transition layers在幾乎所有輸入上都有權(quán)值。這說(shuō)明DenseNet網(wǎng)絡(luò)中第一層的信息也可以間接傳輸?shù)阶詈笠粚印?br>3.第二和第三個(gè)block中的層都在前面transition layers產(chǎn)生的特征上分配了最少的權(quán)重。這說(shuō)明transition layers的輸出中有很多冗余特征，DenseNet-BC通過(guò)壓縮這些輸出獲得了更好的性能也說(shuō)明了這一點(diǎn)。
4.最終的分類層更多的利用了最后的一些特征圖，這可能是因?yàn)樽詈蟛糠值膶訒?huì)生成更高層的特征（更具有區(qū)分能力）。

6. Conclusion

本文提出了一種新的卷積網(wǎng)絡(luò)架構(gòu)——Dense Convolutional Network (DenseNet)，同一個(gè)block中的所有層互聯(lián)。DenseNet參數(shù)規(guī)模更小，計(jì)算復(fù)雜度更低，但在多個(gè)任務(wù)上取得了最佳的結(jié)果。
得益于密集連接的方式，DenseNet可以同時(shí)具有恒等映射（identity mapping）、深度監(jiān)督（deep supervision）和深度多樣性（diversified depth）的特性。DenseNet可以重復(fù)利用網(wǎng)絡(luò)中的特征，學(xué)習(xí)到更簡(jiǎn)潔、準(zhǔn)確率更高的模型。由于它內(nèi)部表示的簡(jiǎn)潔以及對(duì)冗余特征的縮減，DenseNet可以在多種計(jì)算機(jī)視覺(jué)任務(wù)中作為特征提取器。

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/19657.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

CODING

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tab 切換下劃線跟隨實(shí)現(xiàn)

閱讀 898·2019-08-30 15:54
ie 9 背景透明的空白元素?zé)o法點(diǎn)擊

閱讀 1466·2019-08-30 15:54
小程序開(kāi)發(fā)中的那些小坑

閱讀 2400·2019-08-29 16:25
文字在線中間，CSS巧妙實(shí)現(xiàn)分隔線的幾種方法

閱讀 1292·2019-08-29 15:24
前端實(shí)例練習(xí) - 模態(tài)框

閱讀 749·2019-08-29 12:11
TypeScript 初識(shí) - 基礎(chǔ)

閱讀 2505·2019-08-26 10:43
【Vue原理】Compile - 源碼版之從新建實(shí)例到 compile結(jié)束的主要流程

閱讀 1227·2019-08-26 10:40
前端基礎(chǔ)之(1) - js篇

閱讀 466·2019-08-23 16:24

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

[ResNet系] 005 DenseNet

相關(guān)文章

**[ResNet系] 006 DPN**

**[ResNet系] 007 SENet**

從DensNet到CliqueNet，解讀北大在卷積架構(gòu)上的探索

發(fā)表評(píng)論

0條評(píng)論

CODING

男|高級(jí)講師

TA的文章

tab 切換下劃線跟隨實(shí)現(xiàn)

ie 9 背景透明的空白元素?zé)o法點(diǎn)擊

小程序開(kāi)發(fā)中的那些小坑

文字在線中間，CSS巧妙實(shí)現(xiàn)分隔線的幾種方法

前端實(shí)例練習(xí) - 模態(tài)框

TypeScript 初識(shí) - 基礎(chǔ)

【Vue原理】Compile - 源碼版之從新建實(shí)例到 compile結(jié)束的主要流程

前端基礎(chǔ)之(1) - js篇

最新活動(dòng)