国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

簡單理解梯度下降算法及js實現

MoAir / 704人閱讀

摘要:看了很多文章,梯度下降算法描述都比較艱澀難懂比如說目標函數關于參數的梯度將是損失函數上升最快的方向。求最小值對于希臘字母本能地覺得很暈,下面將以求最小值講解梯度下降算法。

看了很多文章,梯度下降算法描述都比較艱澀難懂
比如說: 目標函數f(θ)關于參數θ的梯度將是損失函數(loss function)上升最快的方向。然后會推導出下面這個公式。

y = x^x求最小值

對于希臘字母本能地覺得很暈,下面將以y = x^x; (0

對于y = x^x在0-1中實際上是如下圖一個函數,如何求取這個函數的最小值呢?

導數

數學知識中我們知道導數dy(也就是沿著函數方向的切線)能夠知道函數值的趨勢,也就是梯度,導數范圍是[-1,1], 增加或者是減少;如圖所示:
假設我們X0初始值是1,X1需要往0的方向去求取最小值,在x為1的時候導數為負數。
假設我們X0初始值是0,X1需要往1的方向去求最小值,在x為0時導數為正數。

學習率

假如我們設定在求最小值過程中,每次x的變化是0.05,直到找到最小值,這個0.05在機器學習中稱為步長,也叫學習率lr(learning-rate)。

由于導數影響函數趨勢方向,dy*lr能給表示x的變化方向,當導數為1表示非常陡峭,可以加快步速,當導數趨近0時需要放慢步速,表示將要到達極值。

求導過程

根據學習率,我們得出 X1 = X0 - dy * lr,其中lr這里設置為0.05,dy即對函數求導:

// 求導過程
y = x^x
// 對函數降冪
lny = xlnx
// 左右兩邊分別求導
1/y * dy = 1 + lnx
// 左右兩邊同時乘以y
dy = (1+ lnx)y
// 因為y = x^x
dy = (1+lnx) * x^x

得出dy = (1+lnx) * x^x

js的實現
// 函數
const y = function(x) {
   return Math.pow(x, x);
};
// 導數
const dy = function(x) {
    return (Math.log(x) + 1) * x * x;
};
// 步長
const step = 0.05;
// 訓練次數
const tranTimes = 1000
// 初始值x
let start = 1;

for (let count = 1; count < tranTimes; count++) {
  start = start - dy(start) * step;
  console.log(start, y(start));
}

輸出結果:

0.95 0.9524395584709955
index.html:21 0.9071896099092381 0.9154278618565974
index.html:21 0.8700480926733879 0.8859306522286503
index.html:21 0.8374677719259425 0.8619622953920216
index.html:21 0.8086201886475226 0.8421712374320481
index.html:21 0.7828717701107167 0.8256070591665992
index.html:21 0.7597286934875257 0.8115828484109726
index.html:21 0.7387996916491102 0.7995903987023993
index.html:21 0.719770279950795 0.789246056834791
index.html:21 0.7023844759968008 0.7802550613870627
index.html:21 0.6864315663021606 0.7723874207927244
index.html:21 0.6717363517465544 0.7654612085706618
index.html:21 0.6581518405386136 0.7593307516282222
index.html:21 0.6455536948955527 0.7538781218982149
index.html:21 0.6338359551226174 0.7490069045677286
index.html:21 0.6229077080606727 0.7446375646724406
index.html:21 0.612690463173548 0.7407039548649291
index.html:21 0.6031160654545613 0.7371506504493626
index.html:21 0.5941250201862136 0.7339308925190816
index.html:21 0.5856651369738545 0.7310049838252315
index.html:21 0.5776904236672961 0.7283390256729259
index.html:21 0.570160177606762 0.7259039144927062
index.html:21 0.5630382339758626 0.7236745381284763
//省略
index.html:21 0.3678794436566963 0.6922006275553464
index.html:21 0.36787944361098257 0.6922006275553464
index.html:21 0.36787944356610974 0.6922006275553464
index.html:21 0.3678794435220623 0.6922006275553464
index.html:21 0.36787944347882506 0.6922006275553464
index.html:21 0.3678794434363831 0.6922006275553464
index.html:21 0.3678794433947219 0.6922006275553464
index.html:21 0.36787944335382694 0.6922006275553464
index.html:21 0.3678794433136842 0.6922006275553464
index.html:21 0.3678794432742799 0.6922006275553464
index.html:21 0.36787944323560035 0.6922006275553464
index.html:21 0.36787944319763227 0.6922006275553464
index.html:21 0.3678794431603626 0.6922006275553464
index.html:21 0.36787944312377846 0.6922006275553464
index.html:21 0.36787944308786724 0.6922006275553464
index.html:21 0.36787944305261655 0.6922006275553464
index.html:21 0.3678794430180143 0.6922006275553464
index.html:21 0.3678794429840485 0.6922006275553464
index.html:21 0.36787944295070746 0.6922006275553464
index.html:21 0.3678794429179797 0.6922006275553464
index.html:21 0.36787944288585395 0.6922006275553464
index.html:21 0.3678794428543191 0.6922006275553464
index.html:21 0.3678794428233643 0.6922006275553464
index.html:21 0.3678794427929789 0.6922006275553464
index.html:21 0.36787944276315243 0.6922006275553464
index.html:21 0.3678794427338746 0.6922006275553464
index.html:21 0.36787944270513523 0.6922006275553464
index.html:21 0.3678794426769245 0.6922006275553464
index.html:21 0.3678794426492327 0.6922006275553464
index.html:21 0.3678794426220503 0.6922006275553464
index.html:21 0.36787944259536787 0.6922006275553464

通過結果可以判斷出,當x約等于0.367879442時,y有最小值0.6922006275553464

在學習率為0.05的情況下,1000次訓練中,在最后約100次震蕩中,輸出的的y結果都是一樣的,也就是說我們的訓練次數是過多的,可以適當調整;

但如果我們一開始的設置的學習率是0.01,1000次訓練,最后一次輸出,【0.3721054412801767 0.6922173655754094】,得出不是極值,這時候也需要適當的調整,這叫做調參,得出最適合的訓練模型。

全局最小值

至此,y = x^x求最小值已經完成,但是實際機器學習的函數并沒有那么簡單,也就是下面這種圖。

簡化一下函數圖像,如下圖,上面的求值方式可能只求到第一個最低點,稱為局部最低點,實際上我們要求的是全局最低點在第二個最低點。

所以我們繼續調參:
dy(start) * step完全依賴上一步的趨勢,導致震蕩不到全局最低點。所以我們可以添加一些系數,設置當前導數影響系數為0.9,上一導數影響系數為0.1,0.9 * dy(start) * step + 0.1 * dy(lastStart) * step,可以保留一些梯度直到全局最低點。

當然這里的系數和參數,都是假定的,都需要實際嘗試去得到最適合的數,所以聽說算法工程師也會自嘲調參工程師。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/106613.html

相關文章

  • 機器學習(四)-多變量線性回歸

    摘要:多變量線性回歸應用場景目前為止,我們探討了單變量特征的回歸模型,現在我們對房價模型增加更多的特征,例如房間數樓層等,構成一個含有多個變量的模型。 1 多變量線性回歸應用場景 目前為止,我們探討了單變量/特征的回歸模型,現在我們對房價模型增加更多的特征,例如房間數樓層等,構成一個含有多個變量的模型.。 1.1 單變量線性回歸案例 模型: hθ(x) = θ0 + θ1x showIm...

    Lycheeee 評論0 收藏0
  • 機器學習(四)-多變量線性回歸

    摘要:多變量線性回歸應用場景目前為止,我們探討了單變量特征的回歸模型,現在我們對房價模型增加更多的特征,例如房間數樓層等,構成一個含有多個變量的模型。 1 多變量線性回歸應用場景 目前為止,我們探討了單變量/特征的回歸模型,現在我們對房價模型增加更多的特征,例如房間數樓層等,構成一個含有多個變量的模型.。 1.1 單變量線性回歸案例 模型: hθ(x) = θ0 + θ1x showIm...

    tomorrowwu 評論0 收藏0
  • 機器學習Ng課程筆記——線性回歸算法

    摘要:在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析如果回歸分析中包括兩個及以上個自變量,且因變量和自變量直接是線性關系,則稱之為多元線性回歸分析。參考斯坦福大學機器學習公開課 定義 假設函數與代價函數(損失函數) 特征量放縮 最小化代價函數 收斂判定 1.什么是線性回歸 在統計學中,線性回歸是利用被稱為線性回歸方程的最小平...

    Chaz 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<