二分类模型——评分卡模型

评分卡模型是金融信贷业务中应用较为成熟的一个模型算法,一般分为申请评分卡、行为评分卡和催收评分卡,评分卡作为风险控制的数据依据,计算得到的分数越高,违约概率越低,安全性越高。

本文简单梳理该模型的相关流程

应用场景

样本在贷款申请前、贷款执行中及,贷款到期催收过程中顺利被执行的可能性,这一场景可以扩展到大部分的二分类问题:如经典的好瓜坏瓜、电商选品应用、正确错误二分类等等,评分卡模型都值得一试。

评分卡模型的应用优势

1) 模型稳定性较好;

2) 模型预测能力较好;

3) 以评分的高低区分样本间的差异,易于理解,较好的可解释性;

由于以上三点,评分卡模型应用于得艺数据选品预期结果较好,但需数据验证后才能最终确定。

数据清洗

异常样本删除

①业务数据有时会有一部分无效数据,在分析前应该剔除,如电商的刷单数据。

②部分业务指标数据质量存在问题,需结合数据分布特征、极端数据点考虑删除。

指标缺失值处理

大部分的数据都会存在缺失值,缺失值处理较复杂且方法较多,根据指标的业务逻辑关系、缺失值比例和数据逻辑选择对应于各个指标合适的缺失值处理方法。

①直接舍弃,部分指标虽然很重要,但是缺失值较多,有的甚至达到80%以上,若作为特征加入的话,反而会加入严重的噪声,从而影响最后的模型结果,故此时尽管指标重要,仍然不能使用,需直接舍弃;

②离散数据,缺失值适中,有时采用nan作为数据的一个类别;

③连续性指标缺失值适中时采用连续值离散化,nan同样作为一个类别;

④插值法,在离散的数据基础上补插值函数,用以弥补缺失值。插值的经典方法有许多,如:平均值、众数、中位数、Akima插值法、线性插值法、拉格朗日插值法、牛顿插值法等,具体采用哪种插值法需要结合数据规律确定;

⑤相邻时间点处理,部分时间序列数据且缺失值较少,数据变化不大,有时会以上一个时间点数值或者下一个时间点数值,或者相邻时间点数值的加工处理来填补缺失值。

规范化处理

①部分数据指标各个分类不规范,比如艺术品的尺寸:23*23、23cm*23cm、23*23cm,学校数据:清华美院、清华大学美术学院、清美等,此类数据需经过规范化处理,采用统一标准。

②连续数据离散化,根据部分指标意义及数据特征需要对部分连续数据采用离散化处理,一般根据数据的分布规律及业务规则对连续数据进行离散化处理。

③各指标间量级差距较大时需采用归一化或者标准化使得各指标量纲相差不大而不至于影响最后结果的准确性。

数据分箱

评分卡模型需要对数据进行分箱处理,分箱处理方法有等频、等宽和自动三种,具体选择哪种,根据数据规律及业务逻辑选择。

特征工程

根据数据分享的结果对数据中所有连续变量进行离散化处理,处理完成后计算变量权重以及指标信息价值,通过指标信息价值即可为指标选择提供支持,亦可为评分卡模型做准备。

此时考虑信息熵增加指标选择的科学性。根据信息增益、增益率、基尼系数计算各个指标的信息贡献度/信息重要度,选择指标进入分析建模。

二分类模型——评分卡模型

线性模型

评分卡模型的实质是逻辑回归,为了操作方便且具有较好的解释性,一般采用可转化为线性回归的逻辑回归,得艺大数据选品拟从可转化为线性回归的逻辑回归入手,找到合适的模型及参数估计。

二分类模型——评分卡模型

将处理好的数据指标带入模型,根据损失函数最小化为目标求参数的最优估计值。

模型评估

模型评估有很多,如KS检验、混淆矩阵、ROC曲线、Lift曲线,本项目拟采用K折交叉验证与KS检验结合。

KS检验主要是验证模型对违约对象的区分能力,通常是在模型预测全体信用样本的信用评分后,将样本按违约率与非违约率分成两部分,然后用KS统计量来检验两组样本信用评分是否具有显著性差异。

处理工具

Excel数据简单处理

Python中pandas、numpy、matplotlib.pyplot、seaborn处理基本的数据规律及数据清洗,sklearn包做建模、模型评估选择部分。


分享到:


相關文章: