摘要:假設(shè)概率分布為期望輸出,概率分布為為實(shí)際輸出,為交叉熵。函數(shù)性質(zhì)交叉熵?fù)p失函數(shù)經(jīng)常用于分類問題中,特別是神經(jīng)網(wǎng)絡(luò)分類問題,由于交叉熵涉及到計(jì)算每個類別的概率,所以在神經(jīng)網(wǎng)絡(luò)中,交叉熵與函數(shù)緊密相關(guān)。
標(biāo)簽: 深度學(xué)習(xí)
SOFTMAX 長什么樣子?如下圖所示
從圖的樣子上看,和普通的全連接方式并無差異,但激勵函數(shù)的形式卻大不一樣。
首先后面一層作為預(yù)測分類的輸出節(jié)點(diǎn),每一個節(jié)點(diǎn)就代表一個分類,如圖所示,那么這7個節(jié)點(diǎn)就代表著7個分類的模型,任何一個節(jié)點(diǎn)的激勵函數(shù)都是:
$$ {sigma _i}(z) = frac{{{e^{{z_i}}}}}{{sumlimits_{j = 1}^m {{e^{{z_i}}}} }} $$
其中$i$就是節(jié)點(diǎn)的下標(biāo)次序,而$z_i=w_i+b_i$,也就說這是一個線性分類器的輸出作為自然常數(shù)$e$的指數(shù)。最有趣的是最后一層有這樣的特性:
$$sumlimits_{i = 1}^J {{sigma _i}(z)} = 1$$
也就是說最后一層的每個節(jié)點(diǎn)的輸出值的加和是1。這種激勵函數(shù)從物理意義上可以解釋為一個樣本通過網(wǎng)絡(luò)進(jìn)行分類的時候在每個節(jié)點(diǎn)上輸出的值都是小于等于1的,是它從屬于這個分類的概率。
訓(xùn)練數(shù)據(jù)由訓(xùn)練樣本和分類標(biāo)簽組成。如下圖所,j假設(shè)有7張圖,分別為飛機(jī)、汽車、輪船、貓、狗、鳥、太陽,則圖像的分類標(biāo)簽如下表示:
$$left[ egin{array}{l}1