機器學習面試題集-如何畫 ROC 曲線


機器學習面試題集-如何畫 ROC 曲線


本文結構:

  1. 什麼是 ROC?
  2. 怎麼解讀 ROC 曲線?
  3. 如何畫 ROC 曲線?
  4. 代碼
  5. 什麼是 AUC?
  6. 代碼
  7. ROC 曲線和 P-R 曲線對比?

ROC 曲線和 AUC 常被用來評價一個二值分類器的優劣。

先來看一下混淆矩陣中的各個元素,在後面會用到:


機器學習面試題集-如何畫 ROC 曲線



1. ROC :

Receiver Operating Characteristic Curve 是評價二值分類器的重要指標

橫座標為假陽性率(False Positive Rate,FPR)=FP/N,預測為正但實際為負的樣本佔所有負例樣本的比例。

縱座標為真陽性率(True Positive Rate,TPR)=TP/P, 預測為正且實際為正的樣本佔所有正例樣本的比例。


機器學習面試題集-如何畫 ROC 曲線


對角線對應的是 “隨機猜想”


機器學習面試題集-如何畫 ROC 曲線


當一個學習器的 ROC 曲線被另一個學習器的包住,那麼後者性能優於前者。

有交叉時,需要用 AUC 進行比較。

2. 先看圖中的四個點和對角線:

  • 第一個點,(0,1),即 FPR=0, TPR=1,這意味著 FN(false negative)=0,並且FP(false positive)=0。這意味著分類器很完美,因為它將所有的樣本都正確分類。
  • 第二個點,(1,0),即 FPR=1,TPR=0,這個分類器是最糟糕的,因為它成功避開了所有的正確答案。
  • 第三個點,(0,0),即 FPR=TPR=0,即 FP(false positive)=TP(true positive)=0,此時分類器將所有的樣本都預測為負樣本(negative)。
  • 第四個點(1,1),分類器將所有的樣本都預測為正樣本。
  • 對角線上的點表示分類器將一半的樣本猜測為正樣本,另外一半的樣本猜測為負樣本。

因此,ROC 曲線越接近左上角,分類器的性能越好。


3. 如何畫 ROC 曲線

例如有如下 20 個樣本數據,Class 為真實分類,Score 為分類器預測此樣本為正例的概率。


機器學習面試題集-如何畫 ROC 曲線


  • 按 Score 從大到小排列
  • 依次將每個 Score 設定為閾值,然後這 20 個樣本的標籤會變化,當它的 score 大於或等於當前閾值時,則為正樣本,否則為負樣本。
  • 這樣對每個閾值,可以計算一組 FPR 和 TPR,此例一共可以得到 20 組。
  • 當閾值設置為 1 和 0 時, 可以得到 ROC 曲線上的 (0,0) 和 (1,1) 兩個點。


機器學習面試題集-如何畫 ROC 曲線


4. 代碼:

輸入 y 的真實標籤,還有 score,設定標籤為 2 時是正例:

y = np.array([1, 1, 2, 2])
scores = np.array([0.1, 0.4, 0.35, 0.8])
fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)

就會得到相應的 TPR, FPR, 截斷點 :

fpr = array([ 0. , 0.5, 0.5, 1. ])
tpr = array([ 0.5, 0.5, 1. , 1. ])
thresholds = array([ 0.8 , 0.4 , 0.35, 0.1 ])#截斷點

5. AUC:

是 ROC 曲線下的面積,它是一個數值,沿著 ROC 橫軸做積分,

當僅僅看 ROC 曲線分辨不出哪個分類器的效果更好時,用這個數值來判斷。


機器學習面試題集-如何畫 ROC 曲線


The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

從上面定義可知,意思是隨機挑選一個正樣本和一個負樣本,當前分類算法得到的 Score 將這個正樣本排在負樣本前面的概率就是 AUC 值。AUC 值是一個概率值,取值一般在 0.5~1 之間,AUC 值越大,分類算法越好。

6. 代碼:

import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
roc_auc_score(y_true, y_scores)
0.75

7. ROC 曲線相比 P-R 曲線有什麼特點?

當正負樣本的分佈發生變化時,ROC 曲線的形狀能夠基本保持不變,而 P-R 曲線的形狀一般會發生較劇烈的變化。

想要驗證這個結論,可以先根據數據畫出一對 roc 和 PR 曲線,再將測試集中的負樣本數量增加 10 倍後再畫一對 ROC 和 PR 圖,然後會看到 P-R 曲線發生了明顯的變化,而 ROC 曲線形狀基本不變

這樣,在評價一個模型的表現時,如果選擇了不同的測試集進行評價,那麼 ROC曲線可以更穩定地顯示出模型的性能

這個特點的實際意義

例如計算廣告領域中的轉化率模型,正樣本的數量可能只是負樣本數量的 1/1000 甚至 1/10000,這時若選擇不同的測試集,ROC 曲線能夠更加穩定地反映模型的好壞

ROC 的這種穩定性使得它的應用場景更多,被廣泛用於排序、推薦、廣告等領域

如果roc更穩定,那要 PR 做什麼?

當我們希望看到模型在某個特定數據集上的表現時,P-R 曲線能夠更直觀地反映模型性能。


大家好!我是 Alice,歡迎進入一起學《百面機器學習》系列!

這個系列並不只是根據書本畫個思維導圖,除了用導圖的形式提煉出精華,還會對涉及到的重要概念進行更深度的解釋,順便也梳理一下機器學習的知識體系。


學習資料:

《機器學習》,周志華

《百面機器學習》

http://alexkong.net/2013/06/introduction-to-auc-and-roc/

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html


分享到:


相關文章: