你真的理解機器學習中偏差 - 方差之間的權衡嗎？

lastSeries 發布于2019-07-30 15:09 / 1906人閱讀

摘要：機器學習中的偏差方差之間的權衡機器學習全部是關于給定輸入數據和給定輸出數據，然后去尋找一個最佳映射函數，這個映射函數通常也被叫做目標函數。

作者：chen_h
微信號 & QQ：862251340
微信公眾號：coderpai
簡書地址：http://www.jianshu.com/p/f143...

我認為對偏差 - 方差之間的權衡判讀對學習機器學習是非常重要的。那么為什么這么說呢？因為這個現象的背后是所有參數，性能和幾乎所有機器學習模型的深層原因。如果你能很深刻的理解這個，我保證你能很好的理解機器學習的每一個模型。

所以，我們就不浪費時間在無聊的介紹中，直接深入挖掘吧。理論講解可能有一點枯燥，但我希望你能耐心看完本文。

機器學習中的偏差 - 方差之間的權衡

機器學習全部是關于給定輸入數據（X）和給定輸出數據（Y），然后去尋找一個最佳映射函數（F），這個映射函數通常也被叫做目標函數。

任何機器學習算法的預測誤差可以分解為三部分，即：偏差誤差+方差誤差+不可約的誤差（對于給定的模型，我們不能進一步減少的誤差）。在這個文章中，我們將重點來討論機器學習中的前兩個誤差。我們按照如下目錄來進行講解：

1）偏差誤差；

2）方差誤差；

3）偏差 - 方差之間的權衡；

4）一些想法的總結；

1. 偏差誤差

用簡單的話來說，這個誤差是由于簡單的假設所造成的，因為我們的假設越簡單，那么我們的模型更加容易去訓練。

一般而言，參數化算法具有較高的偏差，使得學習速度非常快，而且非常容易去理解，但是通常不太靈活。

注意：對于參數化算法和非參數化算法之間的區別，簡單來說，參數化算法對數據進行參數化，形成很多的特征，這種方法訓練速度非常快，而且也不需要很多的數據，但是他不是很靈活。非參數化算法對目標函數做出很少或者根本不做任何假設，但是它需要更多的數據，訓練速度非常慢，模型復雜度非常高，但是模型非常強大。

低偏差：對目標函數提出更少的假設；

高偏差：對目標函數提出更多的假設；

低偏差模型例子：KNN 和 SVM；

高偏差模型例子：線性回歸和邏輯斯特回歸；

2. 方差誤差

1）如果我們使用不同的數據去訓練同一個模型，那么最后我們得到的目標函數估計也是會改變的。

2）目標函數是由機器學習的訓練數據所估計得到的，所以我們期望訓練數據擁有一定的方差。理想情況下，我們不希望目標函數從一個訓練數據集到另一個訓練數據集有太大的變化，也就是說我們的算法需要很好的從訓練數據中找到一些映射的特征關系，這樣可以保證不同訓練集都有一個差不多的目標函數。

低方差：隨著訓練數據集的變化，對目標函數估計值的變化非常小；

高方差：隨著訓練數據集的變化，對目標函數估計值的變化非常大；

一般而言，具有很大靈活性的非參數學習算法都具有很高的方差。

高方差例子：KNN 和 SVM。

3. 偏差 - 方差之間的權衡

在上面的例子中我們可以看到一個趨勢：參數或者線性的機器學習算法一般都會有一個很高的偏差和一個很低的方差。但是，非參數或者非線性的機器學習算法一般都有一個很低的偏差和一個很高的方差。所有，我們需要在這兩者之間找到一個平衡點，來優化我們的算法。

比如，KNN 算法有很低的偏差和很高的方差，但是我們可以通過調整 k 的值來改變偏差和方差之間的權衡關系，從而達到一個比較平衡的狀態。

因此，我們增加偏差會導致方差的減少，同理，我們增加方差會導致偏差的減少。但在實踐中，我們無法去計算真正的偏差和方差值，因為我們不知道實際的目標函數。但是，作為一種方法，偏差和方差為我們提供了一種去判斷機器學習算法性能的方法。

4. 一些想法的總結

1）機器學習是去找到一個映射函數（F），這個函數也經常被稱之為目標函數；

2）偏差是模型所做的簡化假設，使得目標函數更加容易求解；

3）方差是在給定不同訓練數據集的情況下，目標函數估計值所改變的量；

4）權衡是去調整一些參數使得偏差和方差之間相對平衡；

作者：chen_h
微信號 & QQ：862251340
簡書地址：http://www.jianshu.com/p/f143...

CoderPai 是一個專注于算法實戰的平臺，從基礎的算法到人工智能算法都有設計。如果你對算法實戰感興趣，請快快關注我們吧。加入AI實戰微信群，AI實戰QQ群，ACM算法微信群，ACM算法QQ群。長按或者掃描如下二維碼，關注 “CoderPai” 微信號（coderpai）

云服務器 GPU云服務器你理解中的云服務器ecs是什么你理解的html 機器學習在企業中的應用深度學習的理解

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/41080.html

論文解讀：華盛頓大學教授Pedro Domingos技術論文：機器學習中一些有用的知識（一）

摘要：機器學習初學者最常犯的錯誤是測試訓練數據，并有成功的幻覺。機器學習中的每個人都知道過度擬合，但它有很多形式，并不是很明顯。事實上，理論與實踐的密切相互作用是機器學習多年來取得如此巨大進步的主要原因之一。摘要：這是機器學習研究人員和從業人員所學到的12個關鍵經驗教訓的總結，包括避免陷阱，重點問題以及常見問題的答案。 showImg(https://segmentfault.com/i...

wqj97 2019-05-29 17:05 評論0 收藏0

發表評論

登陸后可評論

0條評論

lastSeries

男|高級講師

我要關注我要私信

TA的文章

tensorflow1.x

閱讀 3776·2023-04-25 20:00
主機域名是什么意思-主機域名是哪個？

閱讀 3121·2021-09-22 15:09
Virtono：€23.7/年KVM-2GB/25GB/2TB/洛杉磯&a

閱讀 518·2021-08-25 09:40
騰訊云星星海SA2云服務器上線1.2折起,100%CPU性能,3.3GHz高頻,2核4G6M,173

閱讀 3425·2021-07-26 23:38
前端學習整理資料（未完待續）

閱讀 2214·2019-08-30 15:53
瀏覽器默認值匯總

閱讀 1102·2019-08-30 13:46
Slog63_項目上線之ArthurSlog個人網站上線2

閱讀 2799·2019-08-29 16:44
如何找到所有 HTML select 標簽的選中項

閱讀 2053·2019-08-29 15:32

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

你真的理解機器學習中偏差 - 方差之間的權衡嗎？

相關文章

論文解讀：華盛頓大學教授Pedro Domingos技術論文：機器學習中一些有用的知識（一）

發表評論

0條評論

lastSeries

男|高級講師

TA的文章

tensorflow1.x

主機域名是什么意思-主機域名是哪個？

Virtono：€23.7/年KVM-2GB/25GB/2TB/洛杉磯&a

騰訊云星星海SA2云服務器上線1.2折起,100%CPU性能,3.3GHz高頻,2核4G6M,173

前端學習整理資料（未完待續）

瀏覽器默認值匯總

Slog63_項目上線之ArthurSlog個人網站上線2

如何找到所有 HTML select 標簽的選中項

最新活動