機器學習筆記之性能評估指標

daydream 發(fā)布于2019-06-26 18:24 / 2222人閱讀

摘要：機器學習在不同的業(yè)務需求下，需要使用不同的評估指標對算法效果進行評估，這篇文章將對常見的評估指標進行總結。它的定義如下分類正確的樣本數總樣本數用混淆矩陣表示就是即表示分類器正確分類的樣本數與總樣本數之比。

機器學習在不同的業(yè)務需求下，需要使用不同的評估指標對算法效果進行評估，這篇文章將對常見的評估指標進行總結。

Todo list：

[ ] 分類任務

[x] Accuracy

[ ] Precision

[ ] Recall

[ ] F1 Score

[ ] Roc curve

[ ] PR curve

[ ] AUC

[ ] 回歸任務

[ ] MAE

[ ] MSE

由于翻譯問題，Accuracy（準確率），Precision(精確率，查準率)，Recall（召回率，查全率）中文表述會存在歧義，因此下文均用英文表述。

評估指標根據任務類型不同主要分為兩類：

分類任務評估指標

Accuracy

Precision

Recall

F1 Score

Roc curve

PR curve

AUC

回歸任務評價指標

MAE (Mean Absolute Error，絕對平均誤差)

MSE (Mean Squared Error，均方誤差)

混淆矩陣

提到評價方法首先我們先引入混淆矩陣（Confusion Matrix)的概念，因為接下來的分類任務的評價指標Accuracy，precision，recall，F1 score都可以用混淆舉中的元素表示。

混淆矩陣是用來反映某一個分類模型的分類結果的，其中行代表的是真實的類，列代表的是模型的分類，如下表：

分類任務評價指標 Accuracy

Accuracy是評價指標里最易懂，最直觀的一個。它的定義如下:

$$ Accuracy= frac{分類正確的樣本數}{總樣本數} $$

用混淆矩陣表示就是：
$$ Accuracy= frac{TP+TN}{TP+TN+FP+FN} $$

即Accuracy表示分類器正確分類的樣本數與總樣本數之比。

注意不均衡數據會對Accuracy產生極大影響。例如在做債務人逾期率預測任務時，逾期（即未在指定日期還款）的概率相對較低，在此我們假設100人里有一人逾期，如果分類器簡單的把所有人都標記為非逾期（未進行預測），那么這個任務的Accuray將會是99%，99%的準確率看起來很高，然而并未反應分類器的好壞（分類器只是簡單地標記所有樣本為非逾期）。

Precision 和 Recall

先從混淆矩陣定義來看Precision和Recall的定義：
$$ Presion= frac{TP}{TP+FP} $$
$$ Recall= frac{TP}{TP+FN} $$
TP表示預測為正例中真正的正樣本數，TP+FP表示預測為正的所有樣本數，所以Precision表示的是預測為正例的樣本中有多少是真正的正例。

同理TP+FN表示樣本中正例的總數，所以Recall表示的是樣本中的正例被準確預測的比例。

Precision和Recall有著自己的側重點，在不同的業(yè)務需求下重要性也不同。下面舉例說明：
推薦算法中，往往會給用戶推薦較多的候補項，這時候我們希望我們推薦的候補項中盡可能多的是用戶感興趣的內容，這種情況我們希望Precision盡可能的大。

地震預測任務中，我們寧愿誤報也不愿意錯過一次可能的正確預測，所以我們的側重點就是盡可能的提高樣本中的正例被準確預測的比例，如果100次任務里只有一次地震，我們要提高這次地震被預測出來的概率，也就是“寧可錯殺以前也不愿放走一個”，這種情況就希望Recall盡可能的大。

F1 Score

F1 Score是一個綜合考慮Precision和Recall的評價指標，他的定義是二者的調和平均：

$$F1=frac{1}{frac{1}{2}(frac{1}{Precision}+frac{1}{Recall})}implies F1=frac{2cdot Precisioncdot Recall}{Precision+Recall}$$

Precision和Recall都高時F1 Score也會高。

云服務器 GPU云服務器機器學習入門之性能指標 cdn性能指標圖像識別性能指標

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規(guī)行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/19737.html

發(fā)表評論

登陸后可評論

0條評論

daydream

男|高級講師

我要關注我要私信

TA的文章

程序員的算法趣題Q54: 偷懶的算盤(2)

閱讀 1102·2021-10-14 09:43
#便宜#無憂云：2核/2G/50G硬盤/3Mbps不限流量/洛陽BGP線路/首月9.9元，限量200

閱讀 1145·2021-10-11 11:07
野草云：新增香港云服務器CN2+BGP寬帶 1GB內存 3M 帶寬月費 19元起

閱讀 3112·2021-08-18 10:23
CSS多列布局（柵格布局）

閱讀 1485·2019-08-29 16:18
利用HTML和CSS實現常見的布局

閱讀 999·2019-08-28 18:21
js執(zhí)行機制

閱讀 1474·2019-08-26 12:12
如何實現一個這樣的級聯組件

閱讀 3760·2019-08-26 10:11
Node中間層服務編寫框架中的思考

閱讀 2502·2019-08-23 18:04

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

機器學習筆記之性能評估指標

相關文章

發(fā)表評論

0條評論

daydream

男|高級講師

TA的文章

程序員的算法趣題Q54: 偷懶的算盤(2)

#便宜#無憂云：2核/2G/50G硬盤/3Mbps不限流量/洛陽BGP線路/首月9.9元，限量200

野草云：新增香港云服務器CN2+BGP寬帶 1GB內存 3M 帶寬月費 19元起

CSS多列布局（柵格布局）

利用HTML和CSS實現常見的布局

js執(zhí)行機制

如何實現一個這樣的級聯組件

Node中間層服務編寫框架中的思考

最新活動