摘要:而基于梯度更新也意味著面臨一些挑戰選擇恰當的初始學習率很困難,學習率太大會妨礙收斂,導致損失函數在最小值附近振蕩甚至偏離最小值非凸的損失函數優化過程存在大量的局部最優解或鞍點參數更新采用相同的學習率。
感謝閱讀「美圖數據技術團隊」的原創文章,關注我們持續獲取美圖最新數據技術動態。
平時我們說的訓練神經網絡就是最小化損失函數的過程,損失函數的值衡量了模型在給定數據集下的表現(擬合)能力。
損失函數 J 如上圖所示,B 點為函數最低點,設 A 點為初始值,那么優化器的作用就是指引初始值 A 點走向最低點 B 點,那么如何讓這個過程執行的更加迅速呢?
梯度下降了解一下!
位于三維空間里的任意一個點都可以找到與之相切的平面,在高維的情況下也能找到超平面與其相切。那么在相切平面上的任意一個點都有多種方向,但只有一個方向能使該函數值上升最快,這個方向我們稱之為梯度方向,而這個梯度方向的反方向就是函數值下降最快的方向,這就是梯度下降的過程。
基于以上概念我們進一步了解批量梯度更新 BGD,顧名思義,它就是一次性把所有樣本同時計算之后得到梯度值,然后更新參數。這種方法十分簡便,它對凸函數可以收斂到全局最優值,對于非凸函數則收斂到局部最優值。與此同時它缺點顯而易見:在大數據量下內存占用巨大、計算時間久,并且無法進行在線更新。
面對 BGD 的瓶頸 SGD 應運而生,它每次只更新一個樣本,相對比于 BGD ,它的收斂速度更快并且可以在線更新,有機會跳出局部最優。但 SGD 無法利用矩陣操作加速計算過程,考慮到上述兩種方法的優缺點,就有了小批量梯度下降算法(MBGD),每次只選取固定小批量數據進行梯度更新。
而基于梯度更新也意味著面臨一些挑戰:
選擇恰當的初始學習率很困難,學習率太大會妨礙收斂,導致損失函數在最小值附近振蕩甚至偏離最小值;
非凸的損失函數優化過程存在大量的局部最優解或鞍點;
參數更新采用相同的學習率。
針對上述挑戰,接下來為大家列舉一些優化算法。
如果我們把梯度下降法當作小球從山坡到山谷的一個過程,那么在小球滾動時是帶有一定的初速度,在下落過程,小球積累的動能越來越大,小球的速度也會越滾越大,更快的奔向谷底,受此啟發就有了動量法 Momentum。
如上公式所示,動量法在當前梯度值的基礎上再加上一次的梯度值與衰減率
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19816.html
摘要:學習速率的取值問題當取值較大時,即梯度下降迭代的步長較大,梯度下降迭代過程較快。在處的次梯度集稱為微分集并表示為。在隨機梯度下降中,我們不要求更新方向完全基于梯度。相反,我們允許方向為隨機向量,并要求其期望值為當前向量處函數的次梯度。 1,概述 1.1,梯度下降法 假定給定函數:?,求解...
摘要:在這堂課中,學生將可以學習到深度學習的基礎,學會構建神經網絡,包括和等。課程中也會有很多實操項目,幫助學生更好地應用自己學到的深度學習技術,解決真實世界問題。 深度學習入門首推課程就是吳恩達的深度學習專項課程系列的 5 門課。該專項課程最大的特色就是內容全面、通俗易懂并配備了豐富的實戰項目。今天,給大家推薦一份關于該專項課程的核心筆記!這份筆記只能用兩個字形容:全面! showImg(...
摘要:近來在深度學習中,卷積神經網絡和循環神經網絡等深度模型在各種復雜的任務中表現十分優秀。機器學習中最常用的正則化方法是對權重施加范數約束。 近來在深度學習中,卷積神經網絡和循環神經網絡等深度模型在各種復雜的任務中表現十分優秀。例如卷積神經網絡(CNN)這種由生物啟發而誕生的網絡,它基于數學的卷積運算而能檢測大量的圖像特征,因此可用于解決多種圖像視覺應用、目標分類和語音識別等問題。但是,深層網絡...
閱讀 553·2023-04-26 02:59
閱讀 691·2023-04-25 16:02
閱讀 2154·2021-08-05 09:55
閱讀 3544·2019-08-30 15:55
閱讀 4640·2019-08-30 15:44
閱讀 1797·2019-08-30 13:02
閱讀 2193·2019-08-29 16:57
閱讀 2288·2019-08-26 13:35