风控模型指标详解

目录:

  • 1.P-R 曲线[1]
  • 2.ROC,AUC[2]
    • P-R 曲线和 ROC 曲线的区别[3]
  • 3.WOE.IV 值[4]
  • 4.K-S 值[5]
  • KS 曲线与 ROC 曲线的区别[6]
  • 5.PSI,CSI[7]
    • PSI[8]
    • CSI[9]
    • PSI 和 CSI 的区别[10]
  • 6.Lift 曲线[11]

1.P-R 曲线

  首先,明确两个概念,精确率(P)和召回率(R)。下表中,1 代表正例,0 代表负例。

风控模型指标详解

  精确率是指分类正确的正样本个数占分类器判定为正样本个数的比例。它表示的是预测为正的样本中有多少是真正的正样本。召回率是指分类正确的样本个数占真正的正样本个数的比例,它表示的是样本中的正例有多少被预测正确了。这里可以参看西瓜书,里面好瓜坏瓜的例子,比较容易理解。

   Precision 和 Recall 是既矛盾又统一的两个指标,为了提高 Precision,分类器需要尽量在“更有把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,导致 Recall 很低。

  接下来说回 P-R 曲线,横轴是召回率 R,纵轴是精确率 P。对于 P-R 曲线上的一点,表示在某一阈值下,模型将大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的 P 和 R。一般的 P-R 曲线如下图:

风控模型指标详解

PR

注意,只用某个点对应的精确率和召回率无法全面衡量模型性能。

2.ROC,AUC

  介绍 ROC 之前,先看几个指标,假阳率(FPR)和真阳率(TPR)。

   P 是真实的正样本数量,N 是真实的负样本数量。TP 是 P 个正样本中被分类器预测为正样本的个数,FP 是 N 个负样本中被分类器预测为正样本的个数。
  可以这样记这两个公式,以 TPR 为例,分子就是 TP,因为 T 意味着 P(正)分类正确,所以分母为 P(正类)。正类有两种,一种是预测为正类且预测正确(TP),一种是预测为负类但是预测错误(FN)。FPR 同理,只是分母为 N 而已。ROC 曲线通过不断移动分类器的“截断点”来生成曲线上的一组关键点。
具体介绍见https://zhuanlan.zhihu.com/p/60218684(不想写了。。。)

P-R 曲线和 ROC 曲线的区别

  当正负样本的分布发生变化时,ROC 曲线形状基本保持不变,P-R 曲线会发生剧烈变化。但是,在正负样本分布极不均匀的情况下,P-R 曲线比 ROC 曲线更能有效反应分类的好坏。

3.WOE.IV 值

   WOE 和 IV 主要用来判断变量的预测强度,比如判断用户收入对用户是否会发生逾期的预测强度。因此,两个值的使用主要是在有监督的分类问题中,具体可以细化到如下方面:

  1. 指导变量离散化。在建模过程中,时常需要对连续变量进行离散化处理,如将年龄进行分段。但是变量不同的离散化结果(如:年龄分为[0-20]还是[0-15])会对模型产生不同影响。因此,可以根据指标所反应的预测强度,调整变量离散化结果。(对一些取值很多的分类变量,在需要时也可以对其进行再分组,实现降维。)
  2. 变量筛选。我们需要选取比较重要的变量加入模型,预测强度可以作为我们判断变量是否重要的一个依据。

   WOE 的全称是“Weight of Evidence”,即证据权重。WOE 是对原始自变量的一种编码形式。要对一个变量进行 WOE 编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。下面以 german credit 数据来解释 WOE 及后面的 IV 值,选取 savings 这个分类字段进行相应解释,此字段共有 5 个取值,每个取值代表一个分组,每个分组中好坏样本数如下,其中 0 代表未违约,1 代表违约:


0(未违约)1(违约)总计A61386217603A626934103A63521163A6442648A6515132183总计7003001000

WOE 公式如下:

P(yi)代表第 i 组中,违约样本占所有违约样本的比例;P(ni)代表第 i 组中,未违约样本占所有未违约样本比例;y:所有违约样本数;n:所有未违约样本数。  经过变换,上述式子可以变为


0(未违约)1(违约)总计WOEA613862176030.271A6269341030.14A63521163-0.706A6442648-1.099A6515132183-0.704总计7003001000

  以变量取 A61 时为例,对应的 woe = ln((217/300)/(386/700))。即每一组中坏样本比例除以好样本比例。在大于 0 部分(说明坏样本比例大于好样本比例),WOE 越大,说明坏样本比例比好样本比例大得越多,即分组中存在坏样本的可能性越大;小于 0 部分(坏样本比例小于好样本比例),WOE 越小,说明坏样本比例比好样本比例小得越多,即分组中存在好样本的可能性越大)。总结下来,WOE 越小好样本可能性越大。

  但是,WOE 没有考虑分组中样本占整体样本的比例,如果一个分组的 WOE 值很高,但是样本数占整体样本数很低,则对变量整体预测的能力会下降。因此,我们还需要计算 IV 值。
   IV 值考虑了分组中样本占整体样本的比例,相当于 WOE 的加权求和。具体计算公式如下:


0(未违约)1(违约)总计WOEIVA613862176030.2710.047A6269341030.140.002A63521163-0.7060.027A6442648-1.0990.044A6515132183-0.7040.077总计7003001000
0.197

  有了一个变量各分组的 IV 值,我们就可以计算整个变量的 IV 值,方法很简单,就是把各分组的 IV 相加:

其中,n 为变量分组个数。

   IV 值可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。

4.K-S 值

   KS 曲线是用来衡量分类型模型准确度的工具。KS 曲线与 ROC 曲线非常的类似。KS 曲线是两条线,其横轴是阈值,纵轴是 TPR 与 FPR。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。

KS 的计算步骤如下:

  1. 计算每个评分区间的好坏账户数。
  2. 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)。
  3. 计算每个评分区间累计坏账户占比与累计好账户占比差的绝对值(累计 good%-累计 bad%),然后对这些绝对值取最大值即得此评分卡的 K-S 值。
风控模型指标详解

K-S

   K-S 指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS 指标越大,那么模型的风险区分能力越强。

KS 曲线与 ROC 曲线的区别

   KS 曲线就是把 ROC 曲线由原先的一条曲线拆解成了两条曲线。原先 ROC 的横轴与纵轴都在 KS 中变成了纵轴,而横轴变成了不同的阈值。

5.PSI,CSI

PSI

   PSI 又叫作群体稳定性指标,常用来筛选特征变量、评估模型稳定性。公式如下:

表示实际占比,表示预期占比。

  通常,以训练样本作为预期分布占比,验证样本作为实际分布占比。

ScoreA%E%A-EA/EPSI0-20020%10%10%0.8750.0013200-30030%20%10%0.80000.0045300+50%70%-20%1.11110.00111总计
0.0069

   PSI 数值越小,两个分布之间的差异就越小,代表越稳定。

风控模型指标详解

  模型部署上线后,通常用 PSI 曲线报表观察模型的稳定性。通过保证入模变量稳定性来进行变量监控,保证模型分数稳定性来进行模型监控。

根据建模经验,给出一些建议:

  1. 实际评估需要分不同粒度:时间粒度(按月、按样本集)、订单层次(放贷层、申请层)、人群(若没有分群建模,可忽略)。
  2. 先在放贷样本上计算 PSI,剔除不稳定的特征;再对申请样本抽样(可能数据太大),计算 PSI 再次筛选。之前犯的错误就是只在放贷样本上评估,后来在全量申请订单上评估时发现并不稳定,导致返工。
  3. 时间窗尽可能至今为止,有可能建模时间窗稳定,但近期时间窗出现
  4. PSI 只是一个宏观的指标,建议先看变量数据分布(EDD),看分位数跨时间变化来检验数据质量。我们无法得知 PSI 上升时,数据分布是左偏还是右偏。因此,建议把 PSI 计算细节也予以保留,便于在模型不稳定时,第一时间排查问题。
    转自https://zhuanlan.zhihu.com/p/79682292

CSI

   CSI 又叫作特征稳定性指标,能帮助理解入模特征变量对模型分数波动的影响,以及背后的客群分布偏移原因。这对风控模型不稳定时追溯定位原因具有重要意义。

表示实际占比,表示预期占比。
关于 CSI,注意以下几点:

  1. 符号为正,说明当前样本相对于开发样本往高分段偏移;符号为负,说明说明当前样本相对于开发样本往低分段偏移。
  2. CSI 绝对值数值越大,特征稳定性越差。
  3. 不同变量间的 CSI 没有可比性。

PSI 和 CSI 的区别

  1. 群体稳定性报告(Population Stability Report)是用模型分数层(score)来评估当前样本与开发样本之间的分布差异。目前业内有可以统一参考来判断稳定性的阈值标准。
  2. 特征稳定性报告(Characteristic Stability Report)是从入模特征层(characteristic)来分析当前样本与开发样本之间的分数差异,以及对最终模型分数的影响。目前没有统一参考来判断稳定性的阈值标准。

风控模型不稳定时的排查方向
  当通过 PSI 指标发现模型不稳定时,我们该如何去排查原因?引起模型不稳定的因素是多种多样的,主要包括:

申贷客群变化:获客渠道一般决定了客群质量,我们只是从客群的有限特征维度来大致判断是否变化,但这只是有偏判断,因为无法完全获知用户画像。当然,在获客阶段也会做前置风控,预先筛选流量,以及保证客群的稳定。
数据源不稳定:先从 CSI 指标观察入模特征的分数漂移,对于影响较大和偏移较大的变量予以重点关注。再从数据源上确认采集是否可靠,比如数据服务商是否正常提供、接口是否正常工作、网关数据传输过程是否正常等。
特征逻辑有误:在模型上线时,特征逻辑可能没有确认清楚,导致上线后出现意想不到的问题。因此,需要将入模特征的逻辑再次予以 Review。
其他相关原因:模型监控报表是否正确计算?线上依赖于离线 T+1 产出的数据是否正常调度?特征缺失值处理逻辑?转自https://zhuanlan.zhihu.com/p/86559671

6.Lift 曲线

   Lift 是评估一个预测模型是否有效的一个度量;它衡量的是一个模型(或规则)对目标中“响应”的预测能力优于随机选择的倍数,以 1 为界线,大于 1 的 Lift 表示该模型或规则比随机选择捕捉了更多的“响应”,等于 1 的 Lift 表示该模型的表现独立于随机选择,小于 1 则表示该模型或规则比随机选择捕捉了更少的“响应”。Lift 计算公式:

   Lift 指标可以这样理解:在不使用模型的情况下,我们用先验概率估计正例的比例,即上式分母部分,以此作为正例的命中率;利用模型后,我们不需要从整个样本中来挑选正例,只需要从我们预测为正例的那个样本的子集{TP+FP}中挑选正例,这时正例的命中率为查准率 ,后者除以前者即可得提升值 Lift。
下表是一个提升表(Lift Table)的示例:

风控模型指标详解

   Decile 表示分数段,Obs 表示不使用评分卡,用随机选择方法覆盖到的坏客户占比,等价于该组观测数占总观测数的比例(分子分母同时乘以样本整体的坏账率)。Bad 表示使用评分卡得到的坏客户占比。
以分数段为横轴,以提升度为纵轴,可绘制出累计提升图,示例如下:

风控模型指标详解

lift2

   Lift 曲线的右半部分应该尽量陡峭,因为越陡峭说明低分段中的 Bad 占比越大,模型的区分能力越好。

>【作者】:Labryant

>【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。

>【转载说明】:转载请说明出处,谢谢合作!~


分享到:


相關文章: