機(jī)器學(xué)習(xí)競(jìng)賽基礎(chǔ)知識(shí)

EddieChan 發(fā)布于2021-11-22 09:34 / 3432人閱讀

摘要：線下評(píng)估策略通常在數(shù)據(jù)競(jìng)賽中，參賽者是不能將全部數(shù)據(jù)都用于訓(xùn)練模型的，因?yàn)檫@會(huì)導(dǎo)致沒有數(shù)據(jù)集對(duì)該模型的效果進(jìn)行線下驗(yàn)證。當(dāng)時(shí)，也就是折交叉驗(yàn)證，被稱作留一驗(yàn)證。率也叫真正例率，率也叫假正例率，注意區(qū)別于準(zhǔn)確率和召回率。

1. 線下評(píng)估策略

通常在數(shù)據(jù)競(jìng)賽中，參賽者是不能將全部數(shù)據(jù)都用于訓(xùn)練模型的，因?yàn)檫@會(huì)導(dǎo)致沒有數(shù)據(jù)集對(duì)該模型的效果進(jìn)行線下驗(yàn)證。為了解決這一問題，就要考慮如何對(duì)數(shù)據(jù)進(jìn)行劃分，構(gòu)建合適的線下驗(yàn)證集。針對(duì)不同類型的問題，需要不同的線下驗(yàn)證方式，在此分為強(qiáng)時(shí)序性和弱時(shí)序性。

1.1 強(qiáng)時(shí)序性問題

對(duì)于含有明顯時(shí)間序列因素的賽題，可將其看作強(qiáng)時(shí)間序行問題，即線上數(shù)據(jù)的時(shí)間都在離線數(shù)據(jù)集之后，這種情況下就可以采用時(shí)間上最接近測(cè)試集的數(shù)據(jù)做驗(yàn)證集

例如，天池平臺(tái)上的“乘用車零售量預(yù)測(cè)”競(jìng)賽，初賽提供 2012 年 1 月至 2017 年 10 月車型銷售數(shù)據(jù)，需要參賽者預(yù)測(cè) 2017 年 11 月的車型銷售數(shù)據(jù)。這是一個(gè)很明顯的含時(shí)間序列因素的問題，那么我們可以選擇數(shù)據(jù)集的最后一個(gè)月作為驗(yàn)證集。

1.2 弱時(shí)序性問題

這類問題的驗(yàn)證方式主要為 K 折交叉驗(yàn)證，根據(jù) K 的取值不同，會(huì)衍生出不同的交叉驗(yàn)證方式，具體如下。

當(dāng) K=2 時(shí)，這是最簡(jiǎn)單的 K 折交叉驗(yàn)證，即 2 折交叉驗(yàn)證。這個(gè)時(shí)候?qū)?shù)據(jù)集分成兩份：D1 和 D2。首先，D1 當(dāng)訓(xùn)練集，D2 當(dāng)驗(yàn)證集；然后，D2當(dāng)訓(xùn)練集，D1當(dāng)驗(yàn)證集。2 折交叉驗(yàn)證存在很明顯的弊端，即最終模型參數(shù)的選取將在極大程度上依賴于事先對(duì)訓(xùn)練集和驗(yàn)證集的劃分方法。對(duì)于不同的劃分方式，其結(jié)果浮動(dòng)非常大。
當(dāng) K=N 時(shí)，也就是 N 折交叉驗(yàn)證，被稱作 留一驗(yàn)證。具體做法是只留一個(gè)數(shù)據(jù)作為驗(yàn)證集，其他數(shù)據(jù)都作為數(shù)據(jù)集，并重復(fù) N 次（N 為數(shù)據(jù)集總量）。其優(yōu)點(diǎn)在于，首先它不受驗(yàn)證集和訓(xùn)練集劃分方式的影響，因?yàn)槊恳粋€(gè)數(shù)據(jù)都多帶帶做過驗(yàn)證集；其次，它用了 N-1 個(gè)數(shù)據(jù)訓(xùn)練模型，也幾乎用到了所有數(shù)據(jù)，從而保證模型偏差更小。同時(shí)，其缺點(diǎn)在于計(jì)算量過大，如果數(shù)據(jù)集是千萬(wàn)級(jí)的，那么就需要訓(xùn)練千萬(wàn)次。
為了解決 1 和 2 中的缺陷，我們一般取 K=5 或 10，作為一種折中處理，這也是最常用的線下驗(yàn)證方式。

下面給出通用的交叉驗(yàn)證代碼，具體代碼如下：

from sklearn.model_selection import KFoldNFOLDS = 5folds = KFold(n_splits=NFOLDS, shuffle=True, random_state=2021)for trn_idx, val_idx in folds.split(X_train, y):    train_df, train_label = X_train.iloc[trn_idx, :], y[trn_idx]    valid_df, valid_label = X_train.iloc[val_idx, :], y[val_idx]

2. 評(píng)價(jià)指標(biāo)

2.1 分類指標(biāo)

（1）錯(cuò)誤率與精度

在分類問題中，錯(cuò)誤率是分類結(jié)果錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例，精度則是分類結(jié)果中正確的樣本總數(shù)的比例。

（2）準(zhǔn)確率與召回率

假設(shè)一個(gè)腫瘤患病問題，患腫瘤的概率為0.5%，概率很小，對(duì)于這樣一個(gè)一邊概率遠(yuǎn)大于另一邊的我們稱為傾斜分類skewed class.

如果我們?nèi)匀徊捎胊ccuracy來(lái)衡量這樣的問題，那么對(duì)于一個(gè)始終預(yù)測(cè)y=0的模型，它預(yù)測(cè)上面的腫瘤問題的錯(cuò)誤率也僅僅是0.5%.

Accuracy = (true positives + true negatives) / (total examples)

為此，我們引入Precision和Recall 如下所示：

此時(shí)，如果我們用Precision和Recall去評(píng)判剛剛y=0的模型，那么結(jié)果都是0

一般而言，Precision和Recall的圖像不固定，不過都呈現(xiàn)上圖中的趨勢(shì)。

當(dāng)我們?cè)O(shè)高閾值時(shí)，我們得到的預(yù)測(cè)結(jié)果中得到腫瘤的概率也就越大因而Precision越高，不過可能漏掉一部分腫瘤的可能也越大從而Recall越高。

（3）F1-score

F1-score是權(quán)衡Precision和Recall后給出的一個(gè)評(píng)判模型的式子
$F_1 = /frac{PR}{P+R}$

（4）ROC 曲線

ROC 曲線用于繪制采用不同分類閾值時(shí)的 TP 率（TPR）與 FP 率（FPR）。我們根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果，把閾值從0變到最大，即剛開始是把每個(gè)樣本作為正例進(jìn)行預(yù)測(cè)，隨著閾值的增大，學(xué)習(xí)器預(yù)測(cè)正樣例數(shù)越來(lái)越少，直到最后沒有一個(gè)樣本是正樣例。

TP率也叫真正例率，F(xiàn)P率也叫假正例率，注意區(qū)別于準(zhǔn)確率和召回率。
$T P R = T P T P + F N TPR = /frac{TP}{TP+FN}$
$F P R = F P F P + T N FPR = /frac{FP}{FP+TN}$

（5）AUC

AUC是一個(gè)極常用的評(píng)價(jià)指標(biāo)，它定義為 ROC 曲線下的面積。之所以使用 AUC 作為評(píng)價(jià)指標(biāo)，是因?yàn)镽OC 曲線在很多時(shí)候并不嗯呢該清晰地說(shuō)明哪個(gè)分類器的效果更好，而 AUC 作為一個(gè)數(shù)值，其值越大就代表分類器的效果越好。

（6）交叉熵

$/sum_{i}^{n}/sum_{k}^{m}-/hat{y}_k^i/ln{f_{w,b}(x^i_k)}$

其在二分類問題上的表現(xiàn)形式為：

$/sum_{i}^{n}-[/hat{y}^{i}/ln{f_{w,b}(x^i)}+ (1-/hat{y}^{i})/ln{(1-f_{w,b}(x^i))}]$

舉個(gè)栗子，假設(shè)我們的一個(gè)sample經(jīng)過softmax后得到的 $y=f_{w,b}(x)=/begin{bmatrix} 0.9 // 0.1// /end{bmatrix}/quad$ ，其label為 $y ^ = [ 1 0 ] /hat{y}=/begin{bmatrix} 1 // 0// /end{bmatrix}/quad$ ，那么在第一個(gè)式子里計(jì)算出的值為 $1 /ln0.9+0/ln{0.1})=-/ln0.9$ ，第二計(jì)算結(jié)果即為 $? ln 0.9 ? 0 ln 0.1$ 。再比方說(shuō)，我們的另一個(gè)sample經(jīng)過softmax后得到的 $y=f_{w,b}(x)=/begin{bmatrix} 0.1 // 0.8 // 0.1// /end{bmatrix}/quad$ ,其label為 $y ^ = [ 0 1 0 ] /hat{y}=/begin{bmatrix} 0 // 1 // 0// /end{bmatrix}/quad$ ,此時(shí)我們有 $ln{L(w,b)}=-0/ln0.1-1/ln{0.8}-0/ln0.1=-/ln0.8$

像上面這樣我們?nèi)绻袃蓚€(gè)distribution的點(diǎn) $y ^ /hat{y}$ 和 $y$ ，我們記他們的交叉熵即為 $H(/hat{y},y)=-/sum/limits_{k}/hat{y}_k/ln{y_k}$ .

cross entropy交叉熵的含義是表達(dá)著兩個(gè)distribution有多接近，如果這兩個(gè)點(diǎn)的distribution一模一樣的話，那它們計(jì)算出來(lái)的cross entropy就是0，用在我們這里的分類問題中，我們就是希望 $y ^ /hat{y}$ 與 $y$ 越接近越好。

2.2 回歸指標(biāo)

回歸指標(biāo)	計(jì)算公式
MSE	$/frac{1}{m}/sum/limits_{i=1}^{n}(y - /hat{y})^2$

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

機(jī)器學(xué)習(xí)競(jìng)賽基礎(chǔ)知識(shí)

1. 線下評(píng)估策略

1.1 強(qiáng)時(shí)序性問題

1.2 弱時(shí)序性問題

2. 評(píng)價(jià)指標(biāo)

2.1 分類指標(biāo)

（1）錯(cuò)誤率與精度

（2）準(zhǔn)確率與召回率

（3）F1-score

（4）ROC 曲線

（5）AUC

（6）交叉熵

2.2 回歸指標(biāo)

相關(guān)文章

**(轉(zhuǎn))大數(shù)據(jù)競(jìng)賽平臺(tái)——Kaggle 入門**

AI Challenger開賽，千萬(wàn)量級(jí)數(shù)據(jù)開放，AI高手將上演巔峰對(duì)決

Kaggle案例——用python從進(jìn)網(wǎng)站到獲得評(píng)測(cè)結(jié)果

**6張圖像vs13000張圖像，超越2013 Kaggle貓狗識(shí)別競(jìng)賽領(lǐng)先水平**

發(fā)表評(píng)論

0條評(píng)論

EddieChan

男|高級(jí)講師

TA的文章

機(jī)器學(xué)習(xí)競(jìng)賽基礎(chǔ)知識(shí)

html和css常見的一些問題總結(jié)

4種方法實(shí)現(xiàn)邊欄固定中間自適應(yīng)的3欄布局

XML進(jìn)階：Level 1 - XML簡(jiǎn)介

【leetcode系列】001-兩數(shù)之和

WebRTC源碼目錄結(jié)構(gòu)

item2 + oh my zsh 安裝

三年前端，面試思考（頭條螞蟻美團(tuán)offer）

最新活動(dòng)