2025年6月28日 星期六

2025 06 28 左永安 顧問/講師/委員/宮主/秘書長/永續長/執行長/理事長 永續管理師 AI企畫師 分類器評估方法 — ROC曲線、AUC、Accuracy、PR曲線

分類器評估方法 — ROC曲線、AUC、Accuracy、PR曲線

Apr 6, 2020

作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)繪圖者:何晨怡

把顧客資料送進電腦,利用各種演算法加以分類之後,千萬不要以為任務已經完成,行銷資料科學家必須接著使用ROC曲線、AUC、Accuracy或PR曲線等不同的評估工具,來判斷各個分類器的分類成效。

分類器的目的對樣本進行分類

例如,將樣本中的男女進行區分。

不過,在預測分類的過程中,會有預測正確 預測錯誤 兩種結果

因此,將分類狀況與預測結果進行排列組合,

即可得到以下四種情境,如圖1所示。

圖1 混淆矩陣
表格1 為圖1的中文解釋

目前常用的評估分類器的方法,

以透過ROC曲線、AUC、Accuracy、PR曲線等衡量。

(一) ROC曲線

ROC曲線(Receiver Operator Characteristic Curve,

譯為接收者操作特性曲線)。

ROC曲線以FPR為X軸;TPR為Y軸,如圖1左所示。

圖1 隨機森林的ROC曲線

其中,

FPR(False Positive Rate,譯為偽陽性率)

代表分類器的預測為正(Positive),

但實際是錯的,即預測錯誤(False);

TPR(True Positive Rate,譯為真陽性率),

代表分類器的預測為正(Positive),

而實際也是正的,即預測正確(True)。

ROC曲線呈現分類器在效益(真陽性率)與成本(偽陽性率)

之間的相對關係。

其中點(0,1)代表完美分類,代表效益最大,成本最低。

所以ROC曲線越靠近左上方越好。

(二) AUC(Area Under Curve)

AUC(Area Under Curve)代表在ROC曲線下的面積,

能表示分類器預測能力的一項常用的統計值。

前面提到,ROC曲線越靠近右上方越好,

因此,ROC曲線下的面積越大越好代表模型的效益越高

當AUC = 1時,代表分類器非常完美,但這畢竟是理想狀況。

當AUC > 0.5時,代表分類器分類效果優於隨機猜測,模型有預測價值。

當AUC = 0.5時,代表分類器分類效果與隨機猜測相同,模型無預測價值。

當AUC < 0.5時,代表分類器分類效果比隨機猜測差,

                               但如果進行反預測,就會優於隨機猜測。

(三) 準確率(Accuracy)

準確率(Accuracy)等於

正確預測的數量(包括正確預測為正或負),

除以總預測數(包括正確預測為正或負,以及錯誤預測為正或負)。

用公式來看,即為(TP+TN)/(TP+TN+FP+FN)

基本上,準確率越高越好。


(四) PR曲線

PR曲線(Precision-Recall Curve,譯為精確召回曲線)

以召回率(Recall)為X軸,精確率(Precision)為Y軸。

一般來說,精確率與召回率越高,代表模型的效益越高,

也就是PR曲線,越往右上方靠近越好,如圖2所示。

圖2.隨機森林的PR曲線