分類器評估方法 — ROC曲線、AUC、Accuracy、PR曲線
Apr 6, 2020
把顧客資料送進電腦,利用各種演算法加以分類之後,千萬不要以為任務已經完成,行銷資料科學家必須接著使用ROC曲線、AUC、Accuracy或PR曲線等不同的評估工具,來判斷各個分類器的分類成效。
分類器的目的在對樣本進行分類,
例如,將樣本中的男女進行區分。
不過,在預測分類的過程中,會有預測正確 與 預測錯誤 兩種結果。
因此,將分類狀況與預測結果進行排列組合,
即可得到以下四種情境,如圖1所示。

目前常用的評估分類器的方法,
可以透過ROC曲線、AUC、Accuracy、PR曲線等衡量。
(一) ROC曲線
ROC曲線(Receiver Operator Characteristic Curve,
譯為接收者操作特性曲線)。
ROC曲線以FPR為X軸;TPR為Y軸,如圖1左所示。
其中,
FPR(False Positive Rate,譯為偽陽性率),
代表分類器的預測為正(Positive),
但實際是錯的,即預測錯誤(False);
TPR(True Positive Rate,譯為真陽性率),
代表分類器的預測為正(Positive),
而實際也是正的,即預測正確(True)。
ROC曲線呈現分類器在效益(真陽性率)與成本(偽陽性率)
之間的相對關係。
其中點(0,1)代表完美分類,代表效益最大,成本最低。
所以ROC曲線越靠近左上方越好。
(二) AUC(Area Under Curve)
AUC(Area Under Curve)代表在ROC曲線下的面積,
能表示分類器預測能力的一項常用的統計值。
前面提到,ROC曲線越靠近右上方越好,
因此,ROC曲線下的面積越大越好,代表模型的效益越高。
當AUC = 1時,代表分類器非常完美,但這畢竟是理想狀況。
當AUC > 0.5時,代表分類器分類效果優於隨機猜測,模型有預測價值。
當AUC = 0.5時,代表分類器分類效果與隨機猜測相同,模型無預測價值。
當AUC < 0.5時,代表分類器分類效果比隨機猜測差,
但如果進行反預測,就會優於隨機猜測。
(三) 準確率(Accuracy)
準確率(Accuracy)等於
正確預測的數量(包括正確預測為正或負),
除以總預測數(包括正確預測為正或負,以及錯誤預測為正或負)。
用公式來看,即為(TP+TN)/(TP+TN+FP+FN)。
基本上,準確率越高越好。
(四) PR曲線
PR曲線(Precision-Recall Curve,譯為精確召回曲線)
以召回率(Recall)為X軸,精確率(Precision)為Y軸。
一般來說,精確率與召回率越高,代表模型的效益越高,
也就是PR曲線,越往右上方靠近越好,如圖2所示。