国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

機器學習 面試常見問題&答案 ②

gself / 2898人閱讀

摘要:出現方差是正常的,但方差過高表明模型無法將其預測結果泛化到從中抽取訓練樣本的較大母體。機器學習中的學習曲線是一種可視化圖形,能根據一系列訓練實例中的訓練和測試數據比較模型的指標性能。

欠擬合(通常代表高偏差)

精度

如前所述如果模型具有足夠的數據,但因不夠復雜而無法捕捉基本關系,則會出現偏差。這樣一來,模型一直會系統地錯誤表示數據,從而導致預測精度低。這種現象叫做欠擬合(underfitting)。

簡單來說,如果模型不適當,就會出現偏差。舉個例子:如果對象是按顏色和形狀分類的,但模型只能按顏色來區分對象和將對象分類(模型過度簡化),因而一直會錯誤地分類對象。

或者,我們可能有本質上是多項式的連續數據,但模型只能表示線性關系。在此情況下,我們向模型提供多少數據并不重要,因為模型根本無法表示其中的基本關系,我們需要更復雜的模型。

過擬合(通常代表高方差)

過擬合又可以稱之為維度災難。

機器學習中的維度災難 -
紅色石頭的專欄 - CSDN博客 https://blog.csdn.net/red_stone1/article/details/71692444

過少的數據樣本與有效特征,過高的維度,會導致模型學到噪聲和不必要的無效特征,這個概念叫做過擬合,是維度災難的一個直接后果。

在訓練模型時,通常使用來自較大母體(訓練集)的有限數量樣本。如果利用選擇的數據子集反復訓練模型,可以預料它的預測結果會因提供給它的具體樣本而異。在這里,方差(variance)用來測量預測結果對于任何給定的測試樣本會出現多大的變化。

出現方差是正常的,但方差過高表明模型無法將其預測結果泛化到從中抽取訓練樣本的較大母體。對訓練集高度敏感也稱為過擬合(overfitting),而且通常出現在模型過于復雜或我們沒有足夠的數據支持它時。

通常,可以利用更多數據進行訓練,以降低模型預測結果的方差并提高精度。

如何改進模型的有效性

我們可以看到,在給定一組固定數據時,模型不能過于簡單或復雜。如果過于簡單,模型無法了解數據并會錯誤地表示數據。但是,如果建立非常復雜的模型,則需要更多數據才能了解基本關系,否則十分常見的是,模型會推斷出在數據中實際上并不存在的關系。

關鍵在于,通過找出正確的模型復雜度來找到最大限度降低偏差和方差的最有效點。當然,數據越多,模型隨著時間推移會變得越好。 ?

要詳細了解偏差和方差,建議閱讀 Scott Fortmann-Roe
撰寫的這篇文章。http://scott.fortmann-roe.com...

除了選定用來訓練模型的數據子集外,您使用的哪些來自給定數據集的特征也會顯著影響模型的偏差和方差。

聊一下模型訓練過程中的學習曲線

我們根據模型通過可視化圖形從數據中學習的能力來探討偏差與方差之間的關系。機器學習中的學習曲線是一種可視化圖形,能根據一系列訓練實例中的訓練和測試數據比較模型的指標性能。在查看數據與誤差之間的關系時,我們通常會看到,隨著訓練點數量的增加,誤差會趨于下降。由于我們嘗試構建從經驗中學習的模型,因此這很有意義。我們將訓練集和測試集分隔開,以便更好地了解能否將模型泛化到未見過的數據而不是擬合到剛見過的數據。在學習曲線中,當訓練曲線和測試曲線均達到穩定階段,并且兩者之間的差距不再變化時,則可以確認模型已盡其所能地了解數據。

偏差

在訓練誤差和測試誤差收斂并且相當高時,這實質上表示模型具有偏差。無論我們向其提供多少數據,模型都無法表示基本關系,因而出現系統性的高誤差。

方差

如果訓練誤差與測試誤差之間的差距很大,這實質上表示模型具有高方差。與偏差模型不同的是,如果有更多可供學習的數據,或者能簡化表示數據的最重要特征的模型,則通常可以改進具有方差的模型。

理想的學習曲線

模型的最終目標是,誤差小并能很好地泛化到未見過的數據(測試數據)。如果測試曲線和訓練曲線均收斂,并且誤差極低,就能看到這種模型。這種模型能根據未見過的數據非常準確地進行預測。

說一下你理解的信息增益(Information gain)

熵:表示變量的不確定性。

條件熵:在一個條件下,變量的不確定性。

信息增益:熵 - 條件熵

在一個條件下,信息不確定性減少的程度!

例子:原來明天下雨例如信息熵是2,條件熵是0.01(因為如果是陰天就下雨的概率很大,信息就少了),這樣相減后為1.99,在獲得陰天這個信息后,下雨信息不確定性減少了1.99!是很多的!所以信息增益大!也就是說,陰天這個信息對下雨來說是很重要的!

所以在特征選擇的時候常常用信息增益,如果IG(信息增益大)的話那么這個特征對于分類來說很關鍵~~

決策樹就是這樣來找特征的。

說一下分類和回歸的區別?

兩者追到本質是一樣。

分類模型和回歸模型本質一樣,分類模型可將回歸模型的輸出離散化,回歸模型也可將分類模型的輸出連續化,舉幾個例子:

Logistic Regression 和 Linear Regression:

Linear Regression: 輸出一個標量
wx+b,這個值是連續值,所以可以用來處理回歸問題

Logistic Regression:把上面的 wx+b 通過 sigmoid
函數映射到(0,1)上,并劃分一個閾值,大于閾值的分為一類,小于等于分為另一類,可以用來處理二分類問題

更進一步:對于N分類問題,則是先得到N組w值不同的
wx+b,然后歸一化,比如用 softmax
函數,最后變成N個類上的概率,可以處理多分類問題

Support Vector Regression 和 Support Vector Machine:

SVR:輸出
wx+b,即某個樣本點到分類面的距離,是連續值,所以是回歸模型

SVM:把這個距離用 sign(·)
函數作用,距離為正(在超平面一側)的樣本點是一類,為負的是另一類,所以是分類模型

Naive Bayes?用于分類 和 回歸:

用于分類:y是離散的類別,所以得到離散的 p(y|x),給定 x
,輸出每個類上的概率

用于回歸:對上面離散的 p(y|x)求期望
ΣyP(y|x),就得到連續值。但因為此時y本身是連續的值,所以最地道的做法是,得到連續的概率密度函數p(y|x),然后再對y求期望。參考?http://www.cs.waikato.ac.nz/~eibe/pubs/nbr.pdf

前饋神經網絡(如 CNN 系列)?用于 分類 和 回歸:

用于回歸:最后一層有m個神經元,每個神經元輸出一個標量,m個神經元的輸出可以看做向量
v,現全部連到一個神經元上,則這個神經元輸出
wv+b,是一個連續值,可以處理回歸問題,跟上面 Linear Regression
思想一樣

用于N分類:現在這m個神經元最后連接到 N 個神經元,就有 N
組w值不同的 wv+b,同理可以歸一化(比如用 softmax )變成
N個類上的概率(補充一下,如果不用 softmax,而是每個 wx+b
用一個
sigmoid,就變成多標簽問題,跟多分類的區別在于,樣本可以被打上多個標簽)

循環神經網絡(如 RNN 系列)?用于分類 和 回歸:

用于回歸 和 分類: 跟 CNN 類似,輸出層的值 y =
wv+b,可做分類可做回歸,只不過區別在于,RNN
的輸出跟時間有關,即輸出的是 {y(t),
y(t+1),...}序列(關于時間序列,見下面的更新)

上面的例子其實都是從 prediction 的角度舉例的,如果從 training 角度來看,分類模型和回歸模型的目標函數不同,分類常見的是 log loss,hinge loss, 而回歸是 square loss

?
?
??
?

如文章你已看懂,點個「喜歡」即可。
如若錯誤以及不清晰的地方,隨時提出。
歡迎掃一掃上面二維碼加入我的個人微信號進行技術交流。
?
?
?
?

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19897.html

相關文章

  • 機器學習 面試常見問題&答案

    摘要:解決模型退化問題避免了過渡訓練后,導致模型準確率反而降低的情況。經過實驗后發現確實能解決這個問題。本人對于這個問題的確切原因并不清楚,但是猜測這個原因很可能是由于梯度消失以及眾多其他原因所造成的。 給定卷積神經網絡輸入,卷積核大小,padding,步長,求輸出的shape?showImg(https://segmentfault.com/img/remote/146000001781...

    Tangpj 評論0 收藏0

發表評論

0條評論

gself

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<