卷積神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)推導(dǎo)

Binguner 發(fā)布于2019-04-25 18:03 / 3393人閱讀

摘要：所以卷積神經(jīng)網(wǎng)絡(luò)卷積池化假設(shè)矩陣為的矩陣，池化窗口為，則按照池化窗口大小將矩陣分割成塊不相交的小矩陣，對對每個塊中的所有元素做求和平均操作，稱為平均池化，取較大值則稱為較大池化。卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)是權(quán)值共享，非全連接的神經(jīng)網(wǎng)絡(luò)。

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）是一種前饋神經(jīng)網(wǎng)絡(luò)，每個神經(jīng)元都只影響鄰層的一部分神經(jīng)元，具有局部感受野，因此，網(wǎng)絡(luò)具有極強(qiáng)的捕捉局部特征的能力；另一方面，通過權(quán)值共享和池化，顯著地降低了網(wǎng)絡(luò)的計算復(fù)雜度，使得CNN得到廣泛應(yīng)用。CNN是圖像分類和語音識別領(lǐng)域的杰出算法，也是目前大部分計算機(jī)視覺系統(tǒng)的核心技術(shù)，從facebook的圖像自動標(biāo)簽到自動駕駛汽車，乃至AlphaGo都在使用。與此同時，近兩年CNN逐漸被應(yīng)用于NLP任務(wù)，在sentence classification中，基于CNN的模型取得了非常顯著的效果。

本文假設(shè)讀者比較熟悉神經(jīng)網(wǎng)絡(luò)的相關(guān)知識，特別是反向傳播算法的過程，從數(shù)學(xué)推導(dǎo)的角度來理解CNN的內(nèi)部原理。

1 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是由多個感知器（神經(jīng)元）構(gòu)成的全連接的網(wǎng)絡(luò)，本質(zhì)上來說，這樣的連接只是簡單的線性加權(quán)和而已，所以每個神經(jīng)元加上同一個非線性函數(shù)（如sigmoid，tanh等），使得網(wǎng)絡(luò)能擬合非線性。通常，稱這個非線性函數(shù)為激活函數(shù)。一個典型的全連接神經(jīng)網(wǎng)絡(luò)如下所示：?

1.1 前向傳導(dǎo)

上圖中，每個圓圈代表一個神經(jīng)元（標(biāo)上“+1”的是偏置節(jié)點，不算入神經(jīng)元），從神經(jīng)元引出的連接是參數(shù)矩陣w，從偏置節(jié)點引出的是參數(shù)向量b。w和b是整個網(wǎng)絡(luò)最重要的參數(shù)。

1.1.3 輸出層

1.2 反向傳播

假設(shè)神經(jīng)網(wǎng)絡(luò)的代價函數(shù)為：

即，網(wǎng)絡(luò)的整體代價為所有訓(xùn)練樣例的平均代價。

其中，αα是學(xué)習(xí)率。

因此，只要能求出w,bw,b的偏導(dǎo)數(shù)就能迭代更新，從而完成整個算法。看似簡單，但卻困難。因為J(w,b)J(w,b)是很難寫出顯式表達(dá)式的，從而很難對每個wij,bijwij,bij都求出偏導(dǎo)，主要原因是網(wǎng)絡(luò)是分層的進(jìn)而w,bw,b也是分層，這才導(dǎo)致了偏導(dǎo)的難求，從而才有了反向傳播。

所以：

2 卷積神經(jīng)網(wǎng)絡(luò)

2.1 卷積

2.2 池化

假設(shè)矩陣C為6×46×4的矩陣，池化窗口為2×22×2，則按照池化窗口大小將矩陣C分割成6塊不相交的2×22×2小矩陣，對對每個塊中的所有元素做求和平均操作，稱為平均池化，取較大值則稱為較大池化。得到的矩陣S稱為pool map。如：

由于池化也稱為下采樣，用S=down(C)S=down(C)表示，為了使得池化層具有可學(xué)習(xí)性，一般令：

其中，ββ和bb為標(biāo)量參數(shù)。

2.3 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是權(quán)值共享，非全連接的神經(jīng)網(wǎng)絡(luò)。以2個卷積層和2個池化層的卷積神經(jīng)網(wǎng)絡(luò)為例，其結(jié)構(gòu)圖如下：?

2.3.1 前向傳導(dǎo)

2.3.2 反向傳播

卷積神經(jīng)網(wǎng)絡(luò)的反向傳播本質(zhì)上是和BP神經(jīng)網(wǎng)絡(luò)是一致的，區(qū)別在于全連接和非全連接：在反向求導(dǎo)時，卷積神經(jīng)網(wǎng)絡(luò)要明確參數(shù)連接了哪些神經(jīng)元；而全連接的普通神經(jīng)網(wǎng)絡(luò)中的相鄰兩層的神經(jīng)元都是與另一層的所有神經(jīng)元相連的，因此反向求導(dǎo)時非常簡單。

池化層假設(shè)當(dāng)前池化層為 ll，下一層為全連接層，那么當(dāng)前池化層就是全連接層的輸入，可以根據(jù)全連接層的 BP 求導(dǎo)公式遞推算出。因此只需討論下一層 l+1l+1 為卷積層的情形，上一層 lㄢ氀ㄢ開為卷積層，該情形下有：

同樣地，為了求得池化層 ll 的各個神經(jīng)元的δδ，關(guān)鍵是要必須弄清楚該神經(jīng)元與 l+1l+1層中的哪些神經(jīng)元連接，因為求該神經(jīng)元的δδ時，只與這些神經(jīng)元相關(guān)。遞推的方式與全連接的神經(jīng)網(wǎng)絡(luò)的不同之處在于：

池化層 ll 的各個神經(jīng)元的δδ只和 l+1l+1 層的相關(guān)神經(jīng)元有關(guān)

池化層 ll 到卷積層 l+1l+1 做了窄卷積運算，使得矩陣維度減小，因此，δl+1iδil+1 需要與相應(yīng)的卷積核做寬卷積運算使得矩陣維度擴(kuò)展回去。因此，有：