風控模型指標詳解

目錄:

  • 1.P-R 曲線[1]
  • 2.ROC,AUC[2]
    • P-R 曲線和 ROC 曲線的區別[3]
  • 3.WOE.IV 值[4]
  • 4.K-S 值[5]
  • KS 曲線與 ROC 曲線的區別[6]
  • 5.PSI,CSI[7]
    • PSI[8]
    • CSI[9]
    • PSI 和 CSI 的區別[10]
  • 6.Lift 曲線[11]

1.P-R 曲線

  首先,明確兩個概念,精確率(P)和召回率(R)。下表中,1 代表正例,0 代表負例。

風控模型指標詳解

  精確率是指分類正確的正樣本個數佔分類器判定為正樣本個數的比例。它表示的是預測為正的樣本中有多少是真正的正樣本。召回率是指分類正確的樣本個數佔真正的正樣本個數的比例,它表示的是樣本中的正例有多少被預測正確了。這裡可以參看西瓜書,裡面好瓜壞瓜的例子,比較容易理解。

   Precision 和 Recall 是既矛盾又統一的兩個指標,為了提高 Precision,分類器需要儘量在“更有把握”時才把樣本預測為正樣本,但此時往往會因為過於保守而漏掉很多“沒有把握”的正樣本,導致 Recall 很低。

  接下來說回 P-R 曲線,橫軸是召回率 R,縱軸是精確率 P。對於 P-R 曲線上的一點,表示在某一閾值下,模型將大於該閾值的結果判定為正樣本,小於該閾值的結果判定為負樣本,此時返回結果對應的 P 和 R。一般的 P-R 曲線如下圖:

風控模型指標詳解

PR

注意,只用某個點對應的精確率和召回率無法全面衡量模型性能。

2.ROC,AUC

  介紹 ROC 之前,先看幾個指標,假陽率(FPR)和真陽率(TPR)。

   P 是真實的正樣本數量,N 是真實的負樣本數量。TP 是 P 個正樣本中被分類器預測為正樣本的個數,FP 是 N 個負樣本中被分類器預測為正樣本的個數。
  可以這樣記這兩個公式,以 TPR 為例,分子就是 TP,因為 T 意味著 P(正)分類正確,所以分母為 P(正類)。正類有兩種,一種是預測為正類且預測正確(TP),一種是預測為負類但是預測錯誤(FN)。FPR 同理,只是分母為 N 而已。ROC 曲線通過不斷移動分類器的“截斷點”來生成曲線上的一組關鍵點。
具體介紹見https://zhuanlan.zhihu.com/p/60218684(不想寫了。。。)

P-R 曲線和 ROC 曲線的區別

  當正負樣本的分佈發生變化時,ROC 曲線形狀基本保持不變,P-R 曲線會發生劇烈變化。但是,在正負樣本分佈極不均勻的情況下,P-R 曲線比 ROC 曲線更能有效反應分類的好壞。

3.WOE.IV 值

   WOE 和 IV 主要用來判斷變量的預測強度,比如判斷用戶收入對用戶是否會發生逾期的預測強度。因此,兩個值的使用主要是在有監督的分類問題中,具體可以細化到如下方面:

  1. 指導變量離散化。在建模過程中,時常需要對連續變量進行離散化處理,如將年齡進行分段。但是變量不同的離散化結果(如:年齡分為[0-20]還是[0-15])會對模型產生不同影響。因此,可以根據指標所反應的預測強度,調整變量離散化結果。(對一些取值很多的分類變量,在需要時也可以對其進行再分組,實現降維。)
  2. 變量篩選。我們需要選取比較重要的變量加入模型,預測強度可以作為我們判斷變量是否重要的一個依據。

   WOE 的全稱是“Weight of Evidence”,即證據權重。WOE 是對原始自變量的一種編碼形式。要對一個變量進行 WOE 編碼,需要首先把這個變量進行分組處理(也叫離散化、分箱等等,說的都是一個意思)。下面以 german credit 數據來解釋 WOE 及後面的 IV 值,選取 savings 這個分類字段進行相應解釋,此字段共有 5 個取值,每個取值代表一個分組,每個分組中好壞樣本數如下,其中 0 代表未違約,1 代表違約:


0(未違約)1(違約)總計A61386217603A626934103A63521163A6442648A6515132183總計7003001000

WOE 公式如下:

P(yi)代表第 i 組中,違約樣本佔所有違約樣本的比例;P(ni)代表第 i 組中,未違約樣本佔所有未違約樣本比例;y:所有違約樣本數;n:所有未違約樣本數。  經過變換,上述式子可以變為


0(未違約)1(違約)總計WOEA613862176030.271A6269341030.14A63521163-0.706A6442648-1.099A6515132183-0.704總計7003001000

  以變量取 A61 時為例,對應的 woe = ln((217/300)/(386/700))。即每一組中壞樣本比例除以好樣本比例。在大於 0 部分(說明壞樣本比例大於好樣本比例),WOE 越大,說明壞樣本比例比好樣本比例大得越多,即分組中存在壞樣本的可能性越大;小於 0 部分(壞樣本比例小於好樣本比例),WOE 越小,說明壞樣本比例比好樣本比例小得越多,即分組中存在好樣本的可能性越大)。總結下來,WOE 越小好樣本可能性越大。

  但是,WOE 沒有考慮分組中樣本佔整體樣本的比例,如果一個分組的 WOE 值很高,但是樣本數佔整體樣本數很低,則對變量整體預測的能力會下降。因此,我們還需要計算 IV 值。
   IV 值考慮了分組中樣本佔整體樣本的比例,相當於 WOE 的加權求和。具體計算公式如下:


0(未違約)1(違約)總計WOEIVA613862176030.2710.047A6269341030.140.002A63521163-0.7060.027A6442648-1.0990.044A6515132183-0.7040.077總計7003001000
0.197

  有了一個變量各分組的 IV 值,我們就可以計算整個變量的 IV 值,方法很簡單,就是把各分組的 IV 相加:

其中,n 為變量分組個數。

   IV 值可以用來衡量自變量的預測能力。類似的指標還有信息增益、基尼係數等等。

4.K-S 值

   KS 曲線是用來衡量分類型模型準確度的工具。KS 曲線與 ROC 曲線非常的類似。KS 曲線是兩條線,其橫軸是閾值,縱軸是 TPR 與 FPR。兩條曲線之間之間相距最遠的地方對應的閾值,就是最能劃分模型的閾值。

KS 的計算步驟如下:

  1. 計算每個評分區間的好壞賬戶數。
  2. 計算每個評分區間的累計好賬戶數佔總好賬戶數比率(good%)和累計壞賬戶數佔總壞賬戶數比率(bad%)。
  3. 計算每個評分區間累計壞賬戶佔比與累計好賬戶佔比差的絕對值(累計 good%-累計 bad%),然後對這些絕對值取最大值即得此評分卡的 K-S 值。
風控模型指標詳解

K-S

   K-S 指標衡量的是好壞樣本累計分部之間的差值。好壞樣本累計差異越大,KS 指標越大,那麼模型的風險區分能力越強。

KS 曲線與 ROC 曲線的區別

   KS 曲線就是把 ROC 曲線由原先的一條曲線拆解成了兩條曲線。原先 ROC 的橫軸與縱軸都在 KS 中變成了縱軸,而橫軸變成了不同的閾值。

5.PSI,CSI

PSI

   PSI 又叫作群體穩定性指標,常用來篩選特徵變量、評估模型穩定性。公式如下:

表示實際佔比,表示預期佔比。

  通常,以訓練樣本作為預期分佈佔比,驗證樣本作為實際分佈佔比。

ScoreA%E%A-EA/EPSI0-20020%10%10%0.8750.0013200-30030%20%10%0.80000.0045300+50%70%-20%1.11110.00111總計
0.0069

   PSI 數值越小,兩個分佈之間的差異就越小,代表越穩定。

風控模型指標詳解

  模型部署上線後,通常用 PSI 曲線報表觀察模型的穩定性。通過保證入模變量穩定性來進行變量監控,保證模型分數穩定性來進行模型監控。

根據建模經驗,給出一些建議:

  1. 實際評估需要分不同粒度:時間粒度(按月、按樣本集)、訂單層次(放貸層、申請層)、人群(若沒有分群建模,可忽略)。
  2. 先在放貸樣本上計算 PSI,剔除不穩定的特徵;再對申請樣本抽樣(可能數據太大),計算 PSI 再次篩選。之前犯的錯誤就是隻在放貸樣本上評估,後來在全量申請訂單上評估時發現並不穩定,導致返工。
  3. 時間窗儘可能至今為止,有可能建模時間窗穩定,但近期時間窗出現
  4. PSI 只是一個宏觀的指標,建議先看變量數據分佈(EDD),看分位數跨時間變化來檢驗數據質量。我們無法得知 PSI 上升時,數據分佈是左偏還是右偏。因此,建議把 PSI 計算細節也予以保留,便於在模型不穩定時,第一時間排查問題。
    轉自https://zhuanlan.zhihu.com/p/79682292

CSI

   CSI 又叫作特徵穩定性指標,能幫助理解入模特徵變量對模型分數波動的影響,以及背後的客群分佈偏移原因。這對風控模型不穩定時追溯定位原因具有重要意義。

表示實際佔比,表示預期佔比。
關於 CSI,注意以下幾點:

  1. 符號為正,說明當前樣本相對於開發樣本往高分段偏移;符號為負,說明說明當前樣本相對於開發樣本往低分段偏移。
  2. CSI 絕對值數值越大,特徵穩定性越差。
  3. 不同變量間的 CSI 沒有可比性。

PSI 和 CSI 的區別

  1. 群體穩定性報告(Population Stability Report)是用模型分數層(score)來評估當前樣本與開發樣本之間的分佈差異。目前業內有可以統一參考來判斷穩定性的閾值標準。
  2. 特徵穩定性報告(Characteristic Stability Report)是從入模特徵層(characteristic)來分析當前樣本與開發樣本之間的分數差異,以及對最終模型分數的影響。目前沒有統一參考來判斷穩定性的閾值標準。

風控模型不穩定時的排查方向
  當通過 PSI 指標發現模型不穩定時,我們該如何去排查原因?引起模型不穩定的因素是多種多樣的,主要包括:

申貸客群變化:獲客渠道一般決定了客群質量,我們只是從客群的有限特徵維度來大致判斷是否變化,但這只是有偏判斷,因為無法完全獲知用戶畫像。當然,在獲客階段也會做前置風控,預先篩選流量,以及保證客群的穩定。
數據源不穩定:先從 CSI 指標觀察入模特徵的分數漂移,對於影響較大和偏移較大的變量予以重點關注。再從數據源上確認採集是否可靠,比如數據服務商是否正常提供、接口是否正常工作、網關數據傳輸過程是否正常等。
特徵邏輯有誤:在模型上線時,特徵邏輯可能沒有確認清楚,導致上線後出現意想不到的問題。因此,需要將入模特徵的邏輯再次予以 Review。
其他相關原因:模型監控報表是否正確計算?線上依賴於離線 T+1 產出的數據是否正常調度?特徵缺失值處理邏輯?轉自https://zhuanlan.zhihu.com/p/86559671

6.Lift 曲線

   Lift 是評估一個預測模型是否有效的一個度量;它衡量的是一個模型(或規則)對目標中“響應”的預測能力優於隨機選擇的倍數,以 1 為界線,大於 1 的 Lift 表示該模型或規則比隨機選擇捕捉了更多的“響應”,等於 1 的 Lift 表示該模型的表現獨立於隨機選擇,小於 1 則表示該模型或規則比隨機選擇捕捉了更少的“響應”。Lift 計算公式:

   Lift 指標可以這樣理解:在不使用模型的情況下,我們用先驗概率估計正例的比例,即上式分母部分,以此作為正例的命中率;利用模型後,我們不需要從整個樣本中來挑選正例,只需要從我們預測為正例的那個樣本的子集{TP+FP}中挑選正例,這時正例的命中率為查準率 ,後者除以前者即可得提升值 Lift。
下表是一個提升表(Lift Table)的示例:

風控模型指標詳解

   Decile 表示分數段,Obs 表示不使用評分卡,用隨機選擇方法覆蓋到的壞客戶佔比,等價於該組觀測數佔總觀測數的比例(分子分母同時乘以樣本整體的壞賬率)。Bad 表示使用評分卡得到的壞客戶佔比。
以分數段為橫軸,以提升度為縱軸,可繪製出累計提升圖,示例如下:

風控模型指標詳解

lift2

   Lift 曲線的右半部分應該儘量陡峭,因為越陡峭說明低分段中的 Bad 佔比越大,模型的區分能力越好。

>【作者】:Labryant

>【簡介】:某創業公司策略分析師,積極上進,努力提升。乾坤未定,你我都是黑馬。

>【轉載說明】:轉載請說明出處,謝謝合作!~


分享到:


相關文章: