摘要:機(jī)器學(xué)習(xí)中的偏差方差之間的權(quán)衡機(jī)器學(xué)習(xí)全部是關(guān)于給定輸入數(shù)據(jù)和給定輸出數(shù)據(jù),然后去尋找一個(gè)最佳映射函數(shù),這個(gè)映射函數(shù)通常也被叫做目標(biāo)函數(shù)。
作者:chen_h
微信號(hào) & QQ:862251340
微信公眾號(hào):coderpai
簡(jiǎn)書(shū)地址:http://www.jianshu.com/p/f143...
我認(rèn)為對(duì)偏差 - 方差之間的權(quán)衡判讀對(duì)學(xué)習(xí)機(jī)器學(xué)習(xí)是非常重要的。那么為什么這么說(shuō)呢?因?yàn)檫@個(gè)現(xiàn)象的背后是所有參數(shù),性能和幾乎所有機(jī)器學(xué)習(xí)模型的深層原因。如果你能很深刻的理解這個(gè),我保證你能很好的理解機(jī)器學(xué)習(xí)的每一個(gè)模型。
所以,我們就不浪費(fèi)時(shí)間在無(wú)聊的介紹中,直接深入挖掘吧。理論講解可能有一點(diǎn)枯燥,但我希望你能耐心看完本文。
機(jī)器學(xué)習(xí)中的偏差 - 方差之間的權(quán)衡機(jī)器學(xué)習(xí)全部是關(guān)于給定輸入數(shù)據(jù)(X)和給定輸出數(shù)據(jù)(Y),然后去尋找一個(gè)最佳映射函數(shù)(F),這個(gè)映射函數(shù)通常也被叫做目標(biāo)函數(shù)。
任何機(jī)器學(xué)習(xí)算法的預(yù)測(cè)誤差可以分解為三部分,即:偏差誤差+方差誤差+不可約的誤差(對(duì)于給定的模型,我們不能進(jìn)一步減少的誤差)。在這個(gè)文章中,我們將重點(diǎn)來(lái)討論機(jī)器學(xué)習(xí)中的前兩個(gè)誤差。我們按照如下目錄來(lái)進(jìn)行講解:
1)偏差誤差;
2)方差誤差;
3)偏差 - 方差之間的權(quán)衡;
4)一些想法的總結(jié);
1. 偏差誤差用簡(jiǎn)單的話(huà)來(lái)說(shuō),這個(gè)誤差是由于簡(jiǎn)單的假設(shè)所造成的,因?yàn)槲覀兊募僭O(shè)越簡(jiǎn)單,那么我們的模型更加容易去訓(xùn)練。
一般而言,參數(shù)化算法具有較高的偏差,使得學(xué)習(xí)速度非常快,而且非常容易去理解,但是通常不太靈活。
注意:對(duì)于參數(shù)化算法和非參數(shù)化算法之間的區(qū)別,簡(jiǎn)單來(lái)說(shuō),參數(shù)化算法對(duì)數(shù)據(jù)進(jìn)行參數(shù)化,形成很多的特征,這種方法訓(xùn)練速度非常快,而且也不需要很多的數(shù)據(jù),但是他不是很靈活。非參數(shù)化算法對(duì)目標(biāo)函數(shù)做出很少或者根本不做任何假設(shè),但是它需要更多的數(shù)據(jù),訓(xùn)練速度非常慢,模型復(fù)雜度非常高,但是模型非常強(qiáng)大。
低偏差:對(duì)目標(biāo)函數(shù)提出更少的假設(shè);
高偏差:對(duì)目標(biāo)函數(shù)提出更多的假設(shè);
低偏差模型例子:KNN 和 SVM;
高偏差模型例子:線(xiàn)性回歸和邏輯斯特回歸;
2. 方差誤差1)如果我們使用不同的數(shù)據(jù)去訓(xùn)練同一個(gè)模型,那么最后我們得到的目標(biāo)函數(shù)估計(jì)也是會(huì)改變的。
2)目標(biāo)函數(shù)是由機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)所估計(jì)得到的,所以我們期望訓(xùn)練數(shù)據(jù)擁有一定的方差。理想情況下,我們不希望目標(biāo)函數(shù)從一個(gè)訓(xùn)練數(shù)據(jù)集到另一個(gè)訓(xùn)練數(shù)據(jù)集有太大的變化,也就是說(shuō)我們的算法需要很好的從訓(xùn)練數(shù)據(jù)中找到一些映射的特征關(guān)系,這樣可以保證不同訓(xùn)練集都有一個(gè)差不多的目標(biāo)函數(shù)。
低方差:隨著訓(xùn)練數(shù)據(jù)集的變化,對(duì)目標(biāo)函數(shù)估計(jì)值的變化非常小;
高方差:隨著訓(xùn)練數(shù)據(jù)集的變化,對(duì)目標(biāo)函數(shù)估計(jì)值的變化非常大;
一般而言,具有很大靈活性的非參數(shù)學(xué)習(xí)算法都具有很高的方差。
高方差例子:KNN 和 SVM。
3. 偏差 - 方差之間的權(quán)衡在上面的例子中我們可以看到一個(gè)趨勢(shì):參數(shù)或者線(xiàn)性的機(jī)器學(xué)習(xí)算法一般都會(huì)有一個(gè)很高的偏差和一個(gè)很低的方差。但是,非參數(shù)或者非線(xiàn)性的機(jī)器學(xué)習(xí)算法一般都有一個(gè)很低的偏差和一個(gè)很高的方差。所有,我們需要在這兩者之間找到一個(gè)平衡點(diǎn),來(lái)優(yōu)化我們的算法。
比如,KNN 算法有很低的偏差和很高的方差,但是我們可以通過(guò)調(diào)整 k 的值來(lái)改變偏差和方差之間的權(quán)衡關(guān)系,從而達(dá)到一個(gè)比較平衡的狀態(tài)。
因此,我們?cè)黾悠顣?huì)導(dǎo)致方差的減少,同理,我們?cè)黾臃讲顣?huì)導(dǎo)致偏差的減少。但在實(shí)踐中,我們無(wú)法去計(jì)算真正的偏差和方差值,因?yàn)槲覀儾恢缹?shí)際的目標(biāo)函數(shù)。但是,作為一種方法,偏差和方差為我們提供了一種去判斷機(jī)器學(xué)習(xí)算法性能的方法。
1)機(jī)器學(xué)習(xí)是去找到一個(gè)映射函數(shù)(F),這個(gè)函數(shù)也經(jīng)常被稱(chēng)之為目標(biāo)函數(shù);
2)偏差是模型所做的簡(jiǎn)化假設(shè),使得目標(biāo)函數(shù)更加容易求解;
3)方差是在給定不同訓(xùn)練數(shù)據(jù)集的情況下,目標(biāo)函數(shù)估計(jì)值所改變的量;
4)權(quán)衡是去調(diào)整一些參數(shù)使得偏差和方差之間相對(duì)平衡;
作者:chen_h
微信號(hào) & QQ:862251340
簡(jiǎn)書(shū)地址:http://www.jianshu.com/p/f143...
CoderPai 是一個(gè)專(zhuān)注于算法實(shí)戰(zhàn)的平臺(tái),從基礎(chǔ)的算法到人工智能算法都有設(shè)計(jì)。如果你對(duì)算法實(shí)戰(zhàn)感興趣,請(qǐng)快快關(guān)注我們吧。加入AI實(shí)戰(zhàn)微信群,AI實(shí)戰(zhàn)QQ群,ACM算法微信群,ACM算法QQ群。長(zhǎng)按或者掃描如下二維碼,關(guān)注 “CoderPai” 微信號(hào)(coderpai)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/41080.html
摘要:機(jī)器學(xué)習(xí)初學(xué)者最常犯的錯(cuò)誤是測(cè)試訓(xùn)練數(shù)據(jù),并有成功的幻覺(jué)。機(jī)器學(xué)習(xí)中的每個(gè)人都知道過(guò)度擬合,但它有很多形式,并不是很明顯。事實(shí)上,理論與實(shí)踐的密切相互作用是機(jī)器學(xué)習(xí)多年來(lái)取得如此巨大進(jìn)步的主要原因之一。 摘要: 這是機(jī)器學(xué)習(xí)研究人員和從業(yè)人員所學(xué)到的12個(gè)關(guān)鍵經(jīng)驗(yàn)教訓(xùn)的總結(jié),包括避免陷阱,重點(diǎn)問(wèn)題以及常見(jiàn)問(wèn)題的答案。 showImg(https://segmentfault.com/i...
閱讀 3758·2023-04-25 20:00
閱讀 3109·2021-09-22 15:09
閱讀 505·2021-08-25 09:40
閱讀 3412·2021-07-26 23:38
閱讀 2201·2019-08-30 15:53
閱讀 1097·2019-08-30 13:46
閱讀 2788·2019-08-29 16:44
閱讀 2043·2019-08-29 15:32