摘要:靚文推薦以上介紹的就是最原始最開始的,也叫,年提出的。在經過多年的改進后也有幾個延伸版本了如使用了的版本,借鑒了的版本,這里也不再細講,只推薦幾篇我認為比較好的靚文各層的詳細設定及其延伸版本更多自尋
咕了一個多月后終于重新變成人,今天我們就來談談 咕咕net(GoogLeNet) 的結構,在下次咕咕(大表哥2)之前掙扎一下。
GoogLeNet初始的想法很簡單,“大力出奇跡”,即通過增加網絡的網絡的尺寸(深度與寬度)來變強。這腦回路看上去沒啥毛病,但是一用在原味版的cnn上問題就來了,尺寸的增加和全連接層的存在帶來了巨量的參數,計算成本暴增的同時增加了過擬合的風險。為了解決這一麻煩貫徹“大力出奇跡”方針,新的網絡結構被提了出來,而其中的精妙之處就是inception模塊,用上該模塊的GoogLeNet能更高效的利用計算資源,在相同的計算量下能提取到更多的特征,從而提升訓練結果,下面就談談他。
Inception 模塊從圖片來看inception模塊就用不同尺寸的卷積核同時對輸入進行卷積操作,外加一個池化操作,最后把各自的結果匯聚在一起作為總輸出(暗示他們都有相同的尺寸)。與傳統cnn的串聯結構不同,inception模塊使用了并行結構并且引入了不同尺寸的卷積核。關于為什么這種改變是好的,下面是一些參考解釋:
直觀感覺上,在多個尺度上同時進行卷積,能提取到不同尺度的特征,這是好的
(最主要的優點)以往為了打破網絡對稱性和提高學習能力,傳統的網絡都使用了隨機稀疏連接。但是,計算機軟硬件對非均勻稀疏數據的計算效率是很差的。那么存不存在既能保持網絡結構的稀疏性,又能利用密集矩陣的高計算性能的方法呢?答案就在這個inception里,其實現將稀疏矩陣聚類為較為密集的子矩陣來提高計算性能。
再說下inception的一些設定:
卷積核尺寸使用1,3,5是為了方便對齊,只需padding分別為0,1,2;步長都取1 就能獲得相同尺寸的輸出以疊加
網絡越到后面,特征越抽象,而且每個特征所涉及的感受野也更大了,因此隨著層數的增加,3x3和5x5卷積(數量)的比例也要增加
降維操作然而像上圖一樣直接投入使用,參數量和計算量還是很大的,為了進一步降低消耗,inception在 3x3 和 5x5 卷積前和池化后引進了 1x1 卷積進行數據降維(事先把數據深度下降),還能順便增加網絡深度。如下圖紅色區域。另:降維后還是需要經過激活函數
至于降維操作是否會造成數據丟失?就結果來看來不必擔心,別人已經測試過了
GoogLeNet結構既然最核心的inception模塊講完了,那就直接展示GoogLeNet的結構了,其大部分都是各種inception模塊疊加而成的。
整個網絡除了inception外最引人注目的就是中途露出的兩個小尾巴了,那是兩個輔助分類器。說實話這是GoogLeNet第二個精妙之處了。除了最終的分類結果外,中間節點的分類效果還是不錯的,所以GoogLeNet干脆從中間拉了兩條分類器出來,然他們按一個較小的權重(如0.3)加到最終的分類結果中,這樣做好處有三:
相當于做了模型整合
給網絡增加了反向傳播的梯度信號,一定程度解決了深網絡帶來的梯度消失的問題
而且還提供了額外的正則化
喵啊喵啊
當然輔助分類器只用于訓練階段,在測試階段是要去掉的
其他一些新奇之處就是網絡的最后用了平均池化代替了全連接層,然而后面還是接了一個全連接層,這是方便其他人進行遷移學習的。
靚文推薦以上介紹的就是最原始最開始的GoogLeNet,也叫GoogLeNet Incepetion V1,2014年提出的。在經過多年的改進后GoogLeNet也有幾個延伸版本了如使用了BN的V2版本,借鑒了ResNet的V4版本,這里也不再細講,只推薦幾篇我認為比較好的靚文
GoogLeNet各層Inception的詳細設定
GoogLeNet及其延伸版本
更多自尋
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19844.html
摘要:靚文推薦以上介紹的就是最原始最開始的,也叫,年提出的。在經過多年的改進后也有幾個延伸版本了如使用了的版本,借鑒了的版本,這里也不再細講,只推薦幾篇我認為比較好的靚文各層的詳細設定及其延伸版本更多自尋 咕了一個多月后終于重新變成人,今天我們就來談談 咕咕net(GoogLeNet) 的結構,在下次咕咕(大表哥2)之前掙扎一下。 GoogLeNet初始的想法很簡單,大力出奇跡,即通過增...
續【DL-CV】更高級的參數更新(一) 【DL-CV】正則化,Dropout【DL-CV】淺談GoogLeNet(咕咕net) Adagrad 全名 Adaptive gradient algorithm ,翻譯過來就是適應梯度算法,該算法能根據梯度中偏導數的大小給不同的偏導數以不同的學習率,偏導數大(小)的給個小(大)的學習率,以此來減少參數更新時的擺動。 其核心是引入一個參數對歷次的梯度的平方...
閱讀 3744·2021-09-09 09:33
閱讀 3028·2019-08-30 15:56
閱讀 3021·2019-08-30 15:56
閱讀 3312·2019-08-30 15:55
閱讀 504·2019-08-30 15:53
閱讀 2185·2019-08-30 15:52
閱讀 672·2019-08-28 18:16
閱讀 2406·2019-08-26 13:51