如何評價我們分類模型的性能？

sydMobile 發布于2019-07-30 15:14 / 2928人閱讀

摘要：反映了分類器檢測假負性的能力。我們將從混淆矩陣開始，這是表示分類結果的最簡單方法。

作者：chen_h
微信號 & QQ：862251340
微信公眾號：coderpai
簡書地址：https://www.jianshu.com/p/c28...

什么是分類模型？

分類是將每個數據集合中的元素分配給一個已知的數據類別。

那么分類都有哪些任務呢？

根據醫生的病歷記錄，將檢查者區分為健康或者生病的人；

例如使用一些人口統計學和歷史財務數據，在申請信用卡的時候，我們就可以對客戶進行可信度評分，評為“可信”或者“不可信”；

可以根據用戶使用軟件的行為數據進行分析，來分類這個用戶是不是還會繼續使用這個軟件，比如可以分為“繼續使用的用戶”和“不繼續使用的用戶”；

如何構建一個分類模型？ 1. 數據預處理（導入數據，清洗數據，驗證數據）

這個階段將數據分為兩個或三個部分：

訓練數據 —— 將被用來進行數據建模；

驗證數據 —— 將被用來做模型評估（這個在復雜環境下會被用到）；

測試數據 —— 將被用來評估模型的最終質量；

2. 模型構建（使用訓練數據和驗證數據） 3. 模型質量評估（使用測試數據來測試模型） 4. 模型應用和后續監控（定期檢查模型是否運行正常，性能是否下降）

可以使用哪些指標來確定分類模型的質量呢？

這里有兩種指標可以來評估一個分類模型的質量：

定量指標 —— 用具體數值來表示分類質量。

圖形指標 —— 分類質量用一張圖來表示。圖形化表示方法簡化了質量的評估，并且也增強了可視化效果。這些指標包括：

混淆矩陣（confusion matrix）

ROC 曲線

LIFT 圖表

用于評估分類模型的一些基本概念 二分類和多分類

二分類：

一個類別被定義為正樣本，一個類別被定義為負樣本。

多分類

一個類別被定義為正類，其他類別的組合都是被定義為負類。

正樣本應該是在建模過程中被識別出來的對象：例如在信用評分模型中，正樣本包括拖欠債務的顧客，負樣本就是剩下所有類別的顧客。

TP, TN, FP, FN

TP —— 模型預測樣本是正樣本，這個樣本的真實結果也是正樣本；
比如：模型預測該客戶是一個流失客戶，然后實際情況是這個客戶確實是一個流失掉的客戶。

TN —— 模型預測樣本是負樣本，這個樣本的真實結果也是一個負樣本；
比如：模型預測該客戶不是一個流失客戶，然后實際情況是這個客戶確實不是一個流失掉的客戶。

FP —— 模型預測樣本是正樣本，這個樣本的真實結果卻是負樣本；
比如：模型預測該客戶是一個流失客戶，然后實際情況是這個客戶不是一個流失掉的客戶。

FN —— 模型預測樣本是負樣本，這個樣本的真實結果是正樣本；
比如：模型預測該客戶不是一個流失客戶，然后實際情況是這個客戶確是一個流失掉的客戶。

對于一個完美分類器來說，我們希望得到如下參數：

FP = 0
FN = 0
TP = 所有正樣本的個數
TN = 所有負樣本的個數

一些派生的質量指標

上面我們已經介紹了一些基本的質量指標，現在我們來介紹一些派生出來的質量指標。

TPR（True Positive Rate） —— 反映了分類器檢測正樣本的能力。
TPR = TP / (TP + FN) = TP / P，P 表示全部的正樣本

TNR（True Negative Rate） —— 反映了分類器檢測負樣本的能力。
TNR = TN / (TN + FP) = TN / N，N 表示全部的負樣本

FPR（False Positive Rate） —— 反映了分類器檢測假正性的能力。
FPR = FP / (FP + TN)

FNR（False Negative Rate）—— 反映了分類器檢測假負性的能力。
FNR = FN / (FN + TP)

SE（敏感度）—— 反映了分類器檢測正樣本的能力。
SE = TP / (TP + FN)

SP （特異性）—— 反映了分類器檢驗負樣本的能力
SP = TN / (TN + FP)

所以我們可以得到如下等式：

SE = TPR
SP = TNR
1 - SE = FNR
1 - SP = FPR

ACC（總準確率）—— 反映了分類器的總體預測準確性，即進行正確預測的概率，也就是等于正確決策的個數與總決策個數的比例。

ACC = (TP + TN) / (TP + TN + FP + FN)

例子：如何去選擇合適的評估指標

從上面我們可以看到，分類器有很多的評估質量的指標。那么如何選取當前模型的指標呢？這就變成了一個至關重要的問題。

例子

在客戶流失分析模型中，我們的數據有兩個類別：客戶流失和客戶不流失。假設我們有 100 個數據，那么：

90 個觀察到的數據被標記為 “0”（正類）的類別，這個標記屬于客戶決定停止使用我們的服務或者產品；

10 個觀察到的數據被標記為 “1”（負類）的類別，這個標記屬于客戶決定繼續使用我們的服務或者產品；

然后，我們設計的分類器獲得了如下結果：

TP = 85（85個被正確分類為正樣本）
TN = 1（1個被正確分類為負樣本）
FP = 9（9個原來是負樣本的被分類為正樣本）
FN = 5（5個原來是正樣本的被分類為負樣本）

上述指標總和是：

TP + TN + FP + FN = 100

我們現在計算分類的總體準確率：

ACC = （85 + 1）/ 100 = 0.86

86% 的準確率已經是一個不壞的結果了，但是讓我們看一下另一個指標：TNR，這個指標反映了分類器檢測負樣本的能力，也就是在我們這個例子中會繼續使用我們軟件的客戶：

TNR = 1 / 10 = 0.1

也就是說，只有一個不會流失的顧客被識別出來了，剩下的不流失的顧客都被錯誤分類了。如果從這個角度分析，那么這個模型是非常糟糕的一個模型。

所以，只有一個 ACC 是不能很準確來衡量一個模型的好壞的。

在接下來，我們將采用圖形指標來分析模型的好壞。我們將從混淆矩陣開始，這是表示分類結果的最簡單方法。

什么是混淆矩陣？

混淆矩陣是一個 N*N 矩陣，其中每一行代表了數據的真實歸屬類別，每一行的數據總數表示該類別的數據實例的數目。每一列代表了模型預測得到的類別，每一列的總數表示預測為該類別的數據的數目。如下左上角的圖，第一行第一列中的 85 表示有 85 個實際歸屬為第一類的數據被正確預測為了第一類。同理，第二行第一列中的 9 表示有 9 個實際是第二類的數據被錯誤預測為了第一類。

混淆矩陣的形式

各種形式的混淆矩陣讓我們可以更加容易的觀察分類模型性能的這種特征，主要有如下兩種形式：

數字形式 —— 包含分配給特定類別的數字表示

百分數形式 —— 包含分配給特定類別的百分比，計算為分配給該類別的數量與總數量之間的比值。

收益和損失形式 —— 包含由于正確和錯誤的分類而產生的收益和損失信息。

收益和損失形式中的混淆矩陣包含分類決策造成的成本總和。

接下來舉幾個例子。

例子1

例子2

截止點和混淆矩陣

截止點是一個確定的閾值，可以用來確定一個觀測屬性是否屬于一個特定的類別。

如果 P(class(x) = 1) > alfa，那么這個則分配給第一類。其中， alfa 就是一個截止點。P(class(x) = 1) 就是屬于第一類的概率。

例如：

如果給定一個概率 60%，那么貸款申請人不善于償還貸款的概率大于這個值（這個值是我們模型計算出來的），那么就將這個申請人轉入壞賬類別，否則將其轉入好賬類別。

對于相同的問題，我們可以考慮不同的截止點，這也將導致不同的混淆矩陣。通過分析這些矩陣我們就可以選擇一個最佳的截止點。

混淆矩陣總結

收集分類結果的一種簡單易懂的方法

使得分類模型的評估更加容易

混淆矩陣的不同形式可以幫助更好的觀察分類器的性能

什么是 ROC 曲線？

ROC 曲線是分類質量可視化的另外一種方法，顯示了 TPR 和 FPR 之間的依賴關系。

曲線越凸，分類器的性能越好。在下面的例子中，區域 1 中的 “綠色” 分類器更好，區域 2 中的 “紅色” 分類器更好。

如何構建一條 ROC 曲線

我們需要計算決策函數的值；

我們測試不同的 alpha 閾值的分類器。回想一下，alpha 是估計概率的一個閾值，高于這個概率的觀察值被分配到一個類別（正樣本），低于這個閾值的概率被分配到另一個類別（負樣本）；

對于具有 alpha 閾值的每一個分類，我們獲得（TPR，FPR）對，其對應于 ROC 曲線上的一個點。

對于每個具有 alpha 閾值的分類，我們也有相應的混淆矩陣；

例子

根據 ROC 曲線來評估分類器

分類質量可以使用 ROC 曲線下面的面積大小來計算衡量，這個曲線下的面積就是 AUC 系數。

AUC 系數越高越好。AUC = 1 意味著這是一個完美的分類器，我們把所有的東西都分類準確了。對于純隨機數的分類，我們的 AUC = 0.5。如果 AUC < 0.5，那么意味著這個分類器的性能比隨機數還要差。

這里再說一個概念：基尼系數（Gini Coefficient），GC = 2 * AUC - 1。基尼系數越高，代表模型的效果越好。如果 GC = 1，那么這就是一個完美的模型了。如果 GC = 0，那么代表這只是一個隨機數模型。

為什么使用ROC曲線

既然已經這么多評價標準，為什么還要使用ROC和AUC呢？因為ROC曲線有個很好的特性：當測試集中的正負樣本的分布變化的時候，ROC曲線能夠保持不變。在實際的數據集中經常會出現類不平衡（class imbalance）現象，即負樣本比正樣本多很多（或者相反），而且測試數據中的正負樣本的分布也可能隨著時間變化。下圖是ROC曲線和Precision-Recall曲線的對比：

最后講講最常用的精確率和召回率

完整 PPT 可以關注微信公眾號：coderpai，后臺回復 20171223 獲得。

作者：chen_h
微信號 & QQ：862251340
簡書地址：https://www.jianshu.com/p/c28...

CoderPai 是一個專注于算法實戰的平臺，從基礎的算法到人工智能算法都有設計。如果你對算法實戰感興趣，請快快關注我們吧。加入AI實戰微信群，AI實戰QQ群，ACM算法微信群，ACM算法QQ群。長按或者掃描如下二維碼，關注 “CoderPai” 微信號（coderpai）

云服務器 GPU云服務器服務器性能評價文章如何分類的php 上傳到云服務器的課程如何分類如何評價抗ddos設備

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/41132.html

模型評價(一) AUC大法

摘要：問題是什么能拿來干什么如何求解深入理解是什么混淆矩陣混淆矩陣是理解大多數評價指標的基礎，毫無疑問也是理解的基礎。內容的召回往往是根據的排序而決定的。問題： AUC是什么 AUC能拿來干什么 AUC如何求解（深入理解AUC） AUC是什么混淆矩陣(Confusion matrix) 混淆矩陣是理解大多數評價指標的基礎，毫無疑問也是理解AUC的基礎。豐富的資料介紹著混淆矩陣的概念，...

SoapEye 2019-07-30 14:21 評論0 收藏0
機器學習筆記之性能評估指標

摘要：機器學習在不同的業務需求下，需要使用不同的評估指標對算法效果進行評估，這篇文章將對常見的評估指標進行總結。它的定義如下分類正確的樣本數總樣本數用混淆矩陣表示就是即表示分類器正確分類的樣本數與總樣本數之比。機器學習在不同的業務需求下，需要使用不同的評估指標對算法效果進行評估，這篇文章將對常見的評估指標進行總結。 Todo list： [ ] 分類任務 [x] Accuracy [...

daydream 2019-06-26 18:24 評論0 收藏0

發表評論

登陸后可評論

0條評論

sydMobile

男|高級講師

我要關注我要私信

TA的文章

ShockHosting日本機房VPS簡單測試

閱讀 1751·2021-09-23 11:34
怎么買虛擬主機-如何購買虛擬主機？需要注意什么？

閱讀 2472·2021-09-22 15:45
主機號全為0是什么地址-IP地址網絡位全為0，主機號隨意是什么地址？

閱讀 12820·2021-09-22 15:07
Zynq7000硬件開發之電源供電系統(PDN)設計（一）

閱讀 2221·2021-09-02 15:40
CentOS7查看防火墻開放端口命令及放行自定義端口方法

閱讀 4107·2021-07-29 14:48
web 移動端 ios 瀏覽器中 animation 動畫異常

閱讀 1071·2019-08-30 15:55
《CSS設計指南》讀書筆記

閱讀 3245·2019-08-30 15:55
深入理解Flex布局 -- flex-grow & flex-shrink & fl

閱讀 2190·2019-08-30 15:55

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

如何評價我們分類模型的性能？

二分類：

多分類

例子

混淆矩陣的形式

截止點和混淆矩陣

混淆矩陣總結

相關文章

模型評價(一) AUC大法

機器學習筆記之性能評估指標

發表評論

0條評論

sydMobile

男|高級講師

TA的文章

ShockHosting日本機房VPS簡單測試

怎么買虛擬主機-如何購買虛擬主機？需要注意什么？

主機號全為0是什么地址-IP地址網絡位全為0，主機號隨意是什么地址？

Zynq7000硬件開發之電源供電系統(PDN)設計（一）

CentOS7查看防火墻開放端口命令及放行自定義端口方法

web 移動端 ios 瀏覽器中 animation 動畫異常

《CSS設計指南》讀書筆記

深入理解Flex布局 -- flex-grow & flex-shrink & fl

最新活動