国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

[ResNet系] 003 ResNeXt

kidsamong / 2874人閱讀

摘要:本文提出的網(wǎng)絡(luò)名為,意為維度基數(shù)。在空間通道維度分解網(wǎng)絡(luò),減少冗余,可以對(duì)網(wǎng)絡(luò)進(jìn)行加速或精簡(jiǎn)。復(fù)雜度不變的情況下,隨著基數(shù)的增大錯(cuò)誤率持續(xù)減小。考察增加深度寬度基數(shù)對(duì)網(wǎng)絡(luò)性能的提升。

ResNeXt

Aggregated Residual Transformations for Deep Neural Networks
Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He

Caffe實(shí)現(xiàn):https://github.com/binLearnin...

摘要

本文提出一種高度模塊化并易于搭建的網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)中使用的基本構(gòu)件(building block)都是一組具有相同拓?fù)浣Y(jié)構(gòu)的變換的聚合。這種同結(jié)構(gòu)多分支的設(shè)計(jì)理念只需要設(shè)置很少的超參數(shù)。本文提出的策略也引入了一個(gè)新的維度——“基數(shù)(cardinality)”,也就是同屬一個(gè)block的變換的數(shù)量,這是一個(gè)和網(wǎng)絡(luò)深度、寬度同等重要的因素。通過(guò)在ImageNet-1K數(shù)據(jù)集上的實(shí)驗(yàn)可以發(fā)現(xiàn),在保持網(wǎng)絡(luò)復(fù)雜度不變的前提下,增大基數(shù)可以提高分類準(zhǔn)確率。另外通過(guò)增大基數(shù)來(lái)提升網(wǎng)絡(luò)能力比深度、寬度更有效。本文提出的模型稱為ResNeXt,是我們參加ILSVRC2016分類任務(wù)時(shí)提交的解決方案的基礎(chǔ),另外也在ImageNet-5K和COCO檢測(cè)數(shù)據(jù)集上對(duì)ResNeXt進(jìn)行考察,發(fā)現(xiàn)ResNeXt的效果要優(yōu)于相應(yīng)的ResNet。官方實(shí)現(xiàn)(Torch)的源碼地址:https://github.com/facebookre... 。

1. Introduction

視覺(jué)識(shí)別領(lǐng)域的研究正在經(jīng)歷從“特征工程”到“網(wǎng)絡(luò)工程”的轉(zhuǎn)變。現(xiàn)在研究人員的主要精力轉(zhuǎn)向于設(shè)計(jì)可以學(xué)習(xí)到更好的表示的網(wǎng)絡(luò)架構(gòu)。
隨著超參數(shù)(如寬度(網(wǎng)絡(luò)層的通道數(shù))、濾波器尺寸、步幅等)數(shù)量的增加,設(shè)計(jì)架構(gòu)也變得越來(lái)越困難。而VGG網(wǎng)絡(luò)的成功說(shuō)明使用簡(jiǎn)單但有效的策略(堆疊相同結(jié)構(gòu)的基本構(gòu)件)也可以構(gòu)建比較深層的網(wǎng)絡(luò),這個(gè)策略在ResNet中也得以沿用,ResNet中堆疊的block也都是相同的拓?fù)浣Y(jié)構(gòu)。簡(jiǎn)單的設(shè)計(jì)規(guī)則可以減少對(duì)超參數(shù)的選取,而深度是神經(jīng)網(wǎng)絡(luò)中一個(gè)至關(guān)重要的維度。另外,使用簡(jiǎn)單的設(shè)計(jì)規(guī)則可以降低所選取的超參數(shù)過(guò)度適應(yīng)某些特定數(shù)據(jù)集的風(fēng)險(xiǎn),VGG網(wǎng)絡(luò)和ResNet網(wǎng)絡(luò)在多種視覺(jué)/非視覺(jué)任務(wù)上都很魯棒。
不同于VGG網(wǎng)絡(luò),Inception模型通過(guò)精心設(shè)計(jì)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),在保持模型復(fù)雜度較低的前提下也取得了很高的準(zhǔn)確率。所有Inception模型都具有一個(gè)重要的性質(zhì)——都是遵循 拆分-變換-合并(split-transform-merge) 的設(shè)計(jì)策略。Inception模型中block的輸入會(huì)先被拆分成若干低維編碼(使用1x1卷積實(shí)現(xiàn)),然后經(jīng)過(guò)多個(gè)不同的濾波器(如3x3、5x5等)進(jìn)行轉(zhuǎn)換,最后通過(guò)沿通道維度串聯(lián)的方式合并。這種設(shè)計(jì)策略希望在保持網(wǎng)絡(luò)計(jì)算復(fù)雜度相當(dāng)?shù)偷那疤嵯芦@取與包含大量且密集的層的網(wǎng)絡(luò)具有相同的表示能力。
但是,Inception模型實(shí)現(xiàn)起來(lái)很麻煩,它包含一系列復(fù)雜的超參——每個(gè)變換的濾波器的尺寸和數(shù)量都需要指定,不同階段的模塊也需要定制。太多的超參數(shù)大多的影響因素,如何將Inception模型調(diào)整到適合不同的數(shù)據(jù)集/任務(wù)變得很不明晰。
本文同時(shí)借鑒VGG/ResNet網(wǎng)絡(luò)中重復(fù)使用同結(jié)構(gòu)模塊以及Inception模型的拆分-變換-合并的策略來(lái)簡(jiǎn)明的構(gòu)建深層網(wǎng)絡(luò),具體見(jiàn)圖1-right。這樣的設(shè)計(jì)可以隨意調(diào)整變換的規(guī)模。

這種設(shè)計(jì)策略還有兩種等價(jià)形式(見(jiàn)圖3)。圖3(b)中的形式很像Inception-ResNet網(wǎng)絡(luò)中的模塊,不同的是每個(gè)分支都具有相同的拓?fù)浣Y(jié)構(gòu);圖3(c)與AlexNet中分組卷積(grouped convolutions)的理念相似,然而AlexNet使用分組卷積是受限于當(dāng)時(shí)的硬件條件。

基數(shù)是與深度、寬度同樣重要的維度,實(shí)驗(yàn)證明通過(guò)增大基數(shù)來(lái)提升網(wǎng)絡(luò)性能比深度、寬度更有效,尤其是當(dāng)深度/寬度的影響開(kāi)始出現(xiàn)衰減時(shí)。
本文提出的網(wǎng)絡(luò)名為ResNeXt,意為next維度(基數(shù))。

2. Related Work

Multi-branch convolutional networks
多分支結(jié)構(gòu)如Inception模型,ResNet可視為兩個(gè)分支(其中一個(gè)是恒等映射),還有樹(shù)狀多分支結(jié)構(gòu)的深度神經(jīng)決策森林(Deep neural decision forests)。
Grouped convolutions
分組卷積可以追溯到AlexNet,將模型拆分放到兩個(gè)GPU中進(jìn)行訓(xùn)練。Caffe、Torch等都支持分組卷積,主要也是為了兼容之前的AlexNet。我們沒(méi)有發(fā)現(xiàn)證明分組卷積可以提高準(zhǔn)確率的依據(jù)。一個(gè)分組卷積的特例是逐通道卷積,它是可分離卷積的一部分。
Compressing convolutional networks
在空間/通道維度分解網(wǎng)絡(luò),減少冗余,可以對(duì)網(wǎng)絡(luò)進(jìn)行加速或精簡(jiǎn)。我們的方法具有更高的表示能力,而不著重于壓縮。
Ensembling
綜合多個(gè)獨(dú)立訓(xùn)練的網(wǎng)絡(luò)的預(yù)測(cè)可有效提高準(zhǔn)確率,這種集成的方法在競(jìng)賽中被廣泛使用。Veit等人(Residual networks behave like ensembles of relatively shallow network)指出ResNet網(wǎng)絡(luò)內(nèi)部的表現(xiàn)就如同是多個(gè)淺層網(wǎng)絡(luò)的集成,ResNet-v2中的加法操作具有集成的意義。本文提出的方法也是用加法操作將變換組合聚合成一個(gè)深層網(wǎng)絡(luò),但是我們覺(jué)得認(rèn)為殘差網(wǎng)絡(luò)的行為像集成學(xué)習(xí)是不嚴(yán)謹(jǐn)?shù)模驗(yàn)榫W(wǎng)絡(luò)中的成員是同時(shí)訓(xùn)練,而不是獨(dú)立訓(xùn)練所得。

3. Method 3.1 Template

使用如VGG/ResNet網(wǎng)絡(luò)相似的高度模塊化的設(shè)計(jì)理念,網(wǎng)絡(luò)由一系列殘差block堆疊而成,并遵循兩個(gè)簡(jiǎn)單的規(guī)則:(i)如果block輸出的特征圖的空間尺寸相同,那么它們具有相同的超參數(shù)(寬度、濾波器尺寸等);(ii)如果特征圖的空間維度減半,那么block的寬度(通道數(shù))加倍,第二條規(guī)則確保了所有block的計(jì)算復(fù)雜度基本相同。
根據(jù)上述兩條規(guī)則可以設(shè)計(jì)一個(gè)模板模塊,網(wǎng)絡(luò)中的所有模塊都可以照此設(shè)計(jì)。這兩條規(guī)則也減少了超參數(shù)的選擇,讓我們可以專注于考察幾個(gè)關(guān)鍵因素即可。遵循這些規(guī)則設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。

3.2 Revisiting Simple Neurons

最簡(jiǎn)單的人工神經(jīng)元就是執(zhí)行內(nèi)積(權(quán)值相加),實(shí)現(xiàn)元素級(jí)轉(zhuǎn)換。內(nèi)積可以表示成轉(zhuǎn)換的聚合形式:

如圖2中所示,內(nèi)積操作可以分為拆分(splitting)、變換(transforming)、聚合(aggregating)。

3.3 Aggregated Transformations

將內(nèi)積中的基本變換替換成更一般的函數(shù),比如一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),那么聚合變換變成:

公式(2)中的C表示變換的規(guī)模,稱之為基數(shù)。C可以是任意值,它的取值控制著更復(fù)雜變換的規(guī)模。

本文中所有的變換Ti都具有相同的拓?fù)浣Y(jié)構(gòu),如圖1-right所示。
那么公式(2)中的聚合變換就是殘差函數(shù):

Relation to Inception-ResNet
ResNeXt中的模塊結(jié)構(gòu)(圖3(a))與Inception-ResNet的模塊結(jié)構(gòu)(圖3(b))相似,不同的是ResNeXt中的模塊都是相同的拓?fù)浣Y(jié)構(gòu)。
Relation to Grouped Convolutions
使用分組卷積可以將上述模塊的結(jié)構(gòu)進(jìn)一步簡(jiǎn)化,如圖3(c)所示。所有低維的編碼(第一個(gè)1x1層)可以由一個(gè)更寬的層替代,因?yàn)榉纸M卷積會(huì)將輸入張量在通道維度上拆分成不同組然后進(jìn)行處理,然后將處理后的張量連接起來(lái)作為輸出。這種block與ResNet中原始block的形式(圖1-left)很相似,不同的是這些block更寬,并且是稀疏連接的。

我們注意到只有block的深度大于2時(shí)才可以重新組織得到不同以往的拓?fù)浣Y(jié)構(gòu),而深度只有2的block(見(jiàn)圖4)重新組織也只是寬一些密集一些的模塊。

另外需要注意的是各小分支的變換不一定就是像圖3中所示都是相同拓?fù)浣Y(jié)構(gòu)的,它們也可以是任意不同形式的變換。本文選取同結(jié)構(gòu)的形式是為了使網(wǎng)絡(luò)更加簡(jiǎn)潔已經(jīng)易擴(kuò)展,在這種情況下就可以像圖3(c)中所示使用分組卷積很容易的實(shí)現(xiàn)ResNeXt。

3.4 Model Capacity

ResNeXt在保持模型復(fù)雜度和參數(shù)規(guī)模不變的情況下提升了模型準(zhǔn)確率。復(fù)雜度和參數(shù)數(shù)量可以用來(lái)評(píng)估模型的表示能力,在考察深度網(wǎng)絡(luò)時(shí)基本都會(huì)用到。當(dāng)考察相同復(fù)雜度下不同的基數(shù)C對(duì)模型性能的影響時(shí),為了減少需要修改的超參數(shù)量,我們選取修改bottleneck(3x3卷積層)的寬度(通道數(shù)量)來(lái)適應(yīng)基數(shù)的變化,因?yàn)樗?dú)立于block的輸入/輸出,這樣就不需要對(duì)其他的超參數(shù)(如block的深度、輸入/輸出的寬度等)。

在圖1-left中,原來(lái)的ResNet的block的參數(shù)數(shù)量有256*64+3*3*64*64+64*256≈70k,當(dāng)ResNeXt基數(shù)為C,bottleneck層寬度為d時(shí)(圖1-right),參數(shù)數(shù)量為:

當(dāng)C=32,d=4時(shí)公式(4)約等于70k,與原來(lái)的模型基本相同,表2展示了C與d的關(guān)系。

表1比較了具有相似復(fù)雜度的ResNet-50和ResNeXt-50,雖然復(fù)雜度只是大致相似,但之間的差異很小不至于影響結(jié)果。

4. Implementation details

維度增加(空間尺寸減小)時(shí)沿用ResNet中的B方案,但是卷積核由1x1變?yōu)?x3,步幅仍然為2。本文實(shí)現(xiàn)的方案選取了如圖3(c)中的形式,block內(nèi)部的設(shè)計(jì)(權(quán)值層與BN、ReLU的位置安排)按照ResNet方式,而不是ResNet-v2方式。圖3中三種方案是等價(jià)的,我們訓(xùn)練了三種形式都得到了相同的結(jié)果,選取3(c)來(lái)實(shí)現(xiàn)是因?yàn)檫@個(gè)方案更簡(jiǎn)潔,運(yùn)行速度也更快。

5. Experiments 5.1 Experiments on ImageNet-1K

Cardinality vs. Width
首先考察基數(shù)對(duì)模型性能的影響。結(jié)果見(jiàn)表3,訓(xùn)練曲線見(jiàn)圖5。

復(fù)雜度不變的情況下,隨著基數(shù)的增大錯(cuò)誤率持續(xù)減小。ResNeXt的訓(xùn)練誤差比ResNet的要小,說(shuō)明性能的提升是來(lái)源于更強(qiáng)的表示能力而不是正則化。從表3中可以看出,當(dāng)bottleneck的寬度很小時(shí),增加基數(shù)對(duì)模型性能的提升趨于飽和,所以bottleneck寬度的選取一般不小于4d。
Increasing Cardinality vs. Deeper/Wider
考察增加深度/寬度/基數(shù)對(duì)網(wǎng)絡(luò)性能的提升。具體表現(xiàn)見(jiàn)表4。

從表4中可以看出,通過(guò)增大基數(shù)來(lái)提升網(wǎng)絡(luò)能力比深度、寬度更有效。
Performance
Torch對(duì)分組卷積的實(shí)現(xiàn)優(yōu)化不理想,運(yùn)行開(kāi)支比較大。
Comparisons with state-of-the-art results
表5展示了ResNeXt與各種之前最先進(jìn)的模型的性能對(duì)比。

5.2 Experiments on ImageNet-5K

5.3 Experiments on CIFAR

5.4 Experiments on COCO object detection

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19629.html

相關(guān)文章

  • [ResNet] 006 DPN

    摘要:和是兩個(gè)非常重要的網(wǎng)絡(luò),它們顯示了深層卷積神經(jīng)網(wǎng)絡(luò)的能力,并且指出使用極小的卷積核可以提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。也有工作考察與的關(guān)系,與其相似,本文考察了與的關(guān)系。與的網(wǎng)絡(luò)架構(gòu)配置以及復(fù)雜度見(jiàn)表。 DPN Dual Path NetworksYunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, Shuicheng Yan, Jiashi F...

    plus2047 評(píng)論0 收藏0
  • [ResNet] 008 ShuffleNet

    摘要:和分別引進(jìn)了深度分離卷積和分組卷積來(lái)權(quán)衡模型表示能力與計(jì)算量。在通道數(shù)量上使用縮放因子來(lái)調(diào)節(jié)網(wǎng)絡(luò)復(fù)雜度,文中以表示。的基礎(chǔ)是逐點(diǎn)分組卷積和通道重排,分別考察這兩者的作用。 ShuffleNet ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile DevicesXiangyu Zhang, ...

    CNZPH 評(píng)論0 收藏0
  • [ResNet] 007 SENet

    摘要:前面層中的以類別無(wú)關(guān)的方式增強(qiáng)可共享的低層表示的質(zhì)量。通過(guò)調(diào)整網(wǎng)絡(luò)各層間的連接機(jī)制來(lái)提升深層網(wǎng)絡(luò)的學(xué)習(xí)和表示性能。基本都是常規(guī)處理和訓(xùn)練設(shè)置。根據(jù)輸入動(dòng)態(tài)調(diào)整各通道的特征,增強(qiáng)網(wǎng)絡(luò)的表示能力。 SENet Squeeze-and-Excitation NetworksJie Hu, Li Shen, Gang Sun 摘要 卷積神經(jīng)網(wǎng)絡(luò)顧名思義就是依賴卷積操作,使用局部感受區(qū)域(loc...

    huashiou 評(píng)論0 收藏0
  • 一文簡(jiǎn)述ResNet及其多種變體

    摘要:一個(gè)簡(jiǎn)單的解釋是,在論文和論文中,恒等映射的輸出被添加到下一個(gè)模塊,如果兩個(gè)層的特征映射有著非常不同的分布,那么這可能會(huì)阻礙信息流。 在 AlexNet [1] 取得 LSVRC 2012 分類競(jìng)賽冠軍之后,深度殘差網(wǎng)絡(luò)(Residual Network, 下文簡(jiǎn)寫(xiě)為 ResNet)[2] 可以說(shuō)是過(guò)去幾年中計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)領(lǐng)域最具開(kāi)創(chuàng)性的工作。ResNet 使訓(xùn)練數(shù)百甚至數(shù)千層成為可能...

    suemi 評(píng)論0 收藏0
  • ResNet告訴我,我是不是世界上最美的人?

    摘要:在這里,代表照片,也就是形狀為的矩陣,是圖像被標(biāo)記的分?jǐn)?shù)。我首先使用這張照片我的分?jǐn)?shù)是,這意味著我的顏值比數(shù)據(jù)集中的人高。我拍了很多照片,最終我得到了分,這意味著我比數(shù)據(jù)集中的人更具吸引力。 什么?!顏值客觀化要進(jìn)行實(shí)質(zhì)性推進(jìn)了?幾個(gè)月前,華南理工大學(xué)發(fā)布了一篇關(guān)于顏值評(píng)估的論文及其數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括5500人,每人的長(zhǎng)相被從1-5分進(jìn)行打分。數(shù)據(jù)的下載地址如下:https://gith...

    wums 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<