神經網絡中的梯度下降與反向傳播的關系（大白話，通俗易懂版本）

鄒立鵬發布于2019-07-31 11:30 / 1652人閱讀

摘要：損失函數的作用可以理解為當前向傳播得到的預測值與真實值接近時，取較小值。

神經網絡

神經網絡就是一個”萬能的模型+誤差修正函數“，每次根據訓練得到的結果與預想結果進行誤差分析，進而修改權值和閾值，一步一步得到能輸出和預想結果一致的模型。

舉一個例子：比如某廠商生產一種產品，投放到市場之后得到了消費者的反饋，根據消費者的反饋，廠商對產品進一步升級，優化，從而生產出讓消費者更滿意的產品。這就是神經網絡的核心。

神經網絡的本質

機器學習可以看做是數理統計的一個應用，在數理統計中一個常見的任務就是擬合，也就是給定一些樣本點，用合適的曲線揭示這些樣本點隨著自變量的變化關系。

深度學習同樣也是為了這個目的，只不過此時，樣本點不再限定為(x, y)點對，而可以是由向量、矩陣等等組成的廣義點對(X,Y)。而此時，(X,Y)之間的關系也變得十分復雜，不太可能用一個簡單函數表示。然而，人們發現可以用多層神經網絡來表示這樣的關系，而多層神經網絡的本質就是一個多層復合的函數。

說白了，深度學習就是弄出來一個超級大的函數，這個函數含有海量的權值參數、偏置參數，再通過一系列復合的復雜運算，得到結果。

時間萬物，可以抽象成數學模型，用數字來表示，深度學習網絡就是對這些數字進行各種數學運算，計算得到人們期望的結果。

反向傳播

前向傳遞輸入信號直至輸出產生誤差，反向傳播誤差信息更新權重矩陣。

其根本就是求偏導以及高數中的鏈式法則

梯度下降與反向傳播

梯度下降是找損失函數極小值的一種方法，
反向傳播是求解梯度的一種方法。

關于損失函數：

在訓練階段，深度神經網絡經過前向傳播之后，得到的預測值與先前給出真實值之間存在差距。我們可以使用損失函數來體現這種差距。損失函數的作用可以理解為：當前向傳播得到的預測值與真實值接近時，取較小值。反之取值增大。并且，損失函數應是以參數（w 權重, b 偏置）為自變量的函數。

訓練神經網絡，“訓練”的含義：

它是指通過輸入大量訓練數據，使得神經網絡中的各參數（w 權重, b 偏置）不斷調整“學習”到一個合適的值。使得損失函數最小。

如何訓練？

采用梯度下降的方式，一點點地調整參數，找損失函數的極小值（最小值）

為啥用梯度下降？

由淺入深，我們最容易想到的調整參數（權重和偏置）是窮舉。即取遍參數的所有可能取值，比較在不同取值情況下得到的損失函數的值，即可得到使損失函數取值最小時的參數值。然而這種方法顯然是不可取的。因為在深度神經網絡中，參數的數量是一個可怕的數字，動輒上萬，十幾萬。并且，其取值有時是十分靈活的，甚至精確到小數點后若干位。若使用窮舉法，將會造成一個幾乎不可能實現的計算量。

第二個想到的方法就是微分求導。通過將損失函數進行全微分，取全微分方程為零或較小的點，即可得到理想參數。（補充：損失函數取下凸函數，才能使得此方法可行。現實中選取的各種損失函數大多也正是如此。）可面對神經網絡中龐大的參數總量，純數學方法幾乎是不可能直接得到微分零點的。

因此我們使用了梯度下降法。既然無法直接獲得該點，那么我們就想要一步一步逼近該點。一個常見的形象理解是，爬山時一步一步朝著坡度最陡的山坡往下，即可到達山谷最底部。（至于為何不能閃現到谷底，原因是參數數量龐大，表達式復雜，無法直接計算）我們都知道，向量場的梯度指向的方向是其函數值上升最快的方向，也即其反方向是下降最快的方向。計算梯度的方式就是求偏導。

這里需要引入一個步長的概念。個人理解是：此梯度對參數當前一輪學習的影響程度。步長越大，此梯度影響越大。若以平面直角坐標系中的函數舉例，若初始參數x=10，步長為1 。那么參數需要調整十次才能到達谷底。若步長為5，則只需2次。若為步長為11，則永遠無法到達真正的谷底。

如何求解梯度？

采用反向傳播算法。
關于反向傳播算法的推薦博文

GPU云服務器云服務器自適應梯度下降算法 docker是什么通俗易懂反向傳播python 最優化算法與方法的共軛梯度法

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/45225.html

《DeepLearning.ai 深度學習筆記》發布，黃海廣博士整理

摘要：在這堂課中，學生將可以學習到深度學習的基礎，學會構建神經網絡，包括和等。課程中也會有很多實操項目，幫助學生更好地應用自己學到的深度學習技術，解決真實世界問題。深度學習入門首推課程就是吳恩達的深度學習專項課程系列的 5 門課。該專項課程最大的特色就是內容全面、通俗易懂并配備了豐富的實戰項目。今天，給大家推薦一份關于該專項課程的核心筆記！這份筆記只能用兩個字形容：全面！ showImg(...

wenhai.he 2019-06-26 18:56 評論0 收藏0
被Geoffrey Hinton拋棄，反向傳播為何飽受質疑？

摘要：在最近的一次人工智能會議上，表示自己對于反向傳播非常懷疑，并提出應該拋棄它并重新開始。在人工智能多年的發展過程中，反向傳播已經成為了深度學習不可或缺的一部分。最后，我們會將這些規則組合成可用于任意神經網絡的反向傳播算法。現在的深度學習發展似乎已經陷入了大型化、深度化的怪圈，我們設計的模型容易被對抗樣本欺騙，同時又需要大量的訓練數據——在無監督學習上我們取得的突破還很少。作為反向傳播這一深度...

yvonne 2019-04-25 18:19 評論0 收藏0
深度學習與神經科學相遇（三）[譯]

摘要：例如，是一些神經元的特征，其中突觸權重變化的符號取決于突觸前后的較精確至毫秒量級相對定時。，是大腦自身調整其神經元之間的連接強度的生物過程。從他博士期間就開始研究至今，目前可以說深度學習占領著機器學習的半壁江山，而則是深度學習的核心。上次說到誤差梯度的反向傳播（Backpropagation），這次咱們從這繼續。需要說明的是，原文太長，有的地方會有些冗長啰嗦，所以后面的我會選擇性地進行翻譯...

_ipo 2019-04-25 18:23 評論0 收藏0
【DL-CV】反向傳播，（隨機）梯度下降

摘要：下面介紹梯度下降算法以并用反向傳播來求梯度梯度下降看名字就和梯度脫不了關系了。運用反向傳播，我們可以計算損失函數關于每一層權重的梯度，然后實現每一層權重的訓練。應用小批量梯度下降法的隨機梯度下降法已經成為當前深度學習的主流算法。【DL-CV】損失函數，SVM損失與交叉熵損失【DL-CV】激活函數及其選擇有了損失函數L，我們能定量的評價模型的好壞。我們希望損失能最小化，或具體點，我們...

missonce 2019-06-26 18:31 評論0 收藏0