揭秘!我们常用的信用评分竟然是这样做出来的!

揭秘!我们常用的信用评分竟然是这样做出来的!

今天的贝专家分享的主题是关于信用评分的,那么我们经常用的信用评分是怎么做出来的呢?


说到信用评分,那么我们先来说一下信用评分模型是怎么做出来的。


首先做模型要先问一个问题,就是我们做模型是什么?其实他和我们知道的一些物理规律或者定律是不一样的,需要我们在有限的信息量里,尝试着抽象出逻辑,抽象出智慧。所以非常著名的统计学家曾经说过,所有的模型都是错的,但是有一些是有用的,那么这个过程就是什么样的场景下什么样的模型,他的作用才能发挥更大。

01.两种评分模型

在我的认知里,其实有两种,一种是数据驱动模型我们通过历史数据,从中抽象出规律,然后形成模型。还有一种更偏向智能的模型,区别在于机器变成“会思考”的了。那么算法赋予他的其实是一个“会思考”的能力,比如Alpha Go,他其实是在学习历史的知识,学习历史的数据,但是他加了一步,相当于是随机模拟的过程,那么这实际上是他对未来未知性的一个判断,然后来决定哪一个是最优的路径。

下面说一下比较传统的信用评分模型思路,以及目前互联网金融行业我们做的一些比较新的东西,但是这些事情还是基于已有历史数据做的。

02.做模型的过程

首先把他抽象成一个比较简单的数学公式就是y=f(x)的过程。

y是什么?比如一个借款人是不是坏账,或者一个保险产品他到底会不会买,其实这就是y,是要预测,或者最后要应对的场景。

x是什么?x就是我们可以获取到的针对个体而言,针对单位而言所有的一些数据或者他的一些行为表现。比如他的年龄、他的工资水平、他历史的还款表现、他的家庭成员、收入等等。

f是什么?

实际上就是算法,通过不同的算法来构建这些数和最终要呈现的场景之间的映射关系。在做模型的时候,会更多的考虑这几个部分怎么处理。

03.信用评分的模型怎么做

x 部分

x的来源:现在非常多的金融机构自己可以获取到,或者通过官方的征信渠道和一些第三方的数据机构,拿采集过来的数据做一些数据清洗,还有特征提取的工作。

做信用评分的模型会比较注重单变量的分析

。我们拿美国的行业来举例,对于这个比较标准的流程有一个环节,消费者会根据评分是什么,有权利去质询分数以及形成这个部分的机理是什么。我需要知道我的哪些变量发生了改变,那么每个单一的变量和y之间的关系是非常重要的。比如说有一些关联关系的分析方法,是不是可以去做。

做评分模型中有一部分是非常重要的,就是概率的关系。比如说消费收入的变量和是否还款的关系,他其实是连续性的变量,这个过程中间会有一个步骤,是把消费收入分成不同的区间,然后每个区间实际上的还款概率是什么样子,或者坏账的概率是什么样子。

理想的状况下,我们希望他是一个线性可解释的关系,如果他出现凹下去或者凸起的也可以接受。但是他出现了一个从业务逻辑上来说比较难解释的折线的关系,即使这个变量非常有效,也是要被扔掉的。这在特征处理的过程中间,需要做大量的工作。

所以一般常见的流程,比如说有几百个变量,一些质量不好的,我们把他扔掉;或者在业务逻辑上面不符合我们认知的,也会把他扔掉,就会有很多这种往复的工作量,这就是我们处理特征的一个过程。

y 部分

y就是选择我们的样本。实际上大家是否购买一个产品,或者是否坏账,整个流程中间要定义他是不是一个坏人,其实并不是那么简单的事情。就以坏帐为例的话,大家可能都有忘记还信用卡的经历。所以说你忘记还信用卡可能是1天、15天、45天,但是之后又把他还上了,那么我可以把你定义成坏人吗,实际上这不是一个特别好区分的事情。

首先针对我们做的信用评分,以征信局为例的话,是有严格的区分什么是坏人的标准的,那么他严格的定义就是24个月内连续90天逾期,也就是说我在24个月的还款周期内,我有三个月以上不还款就是坏人,这就是严格定义的逾期人群。但是针对于现在的场景来说,像很多小额现金贷这样的,实际上是一个蛮坏的标准。

所以在做的过程中,是要通过历史数据,去看这个人群的迁移,比如说有10万人,那么有多少人他从正常变成了30天逾期,从30天变成60天,逾期60天变成90天。有的人可能从30天逾期又还款了,有的人从60天逾期又还款了,那有多少人从三十天逾期的时候,变成了60天逾期或者在30天的时候又还款了呢。

那如果有更多的人是回来还款的,那30天逾期其实并不是一个很好的让我能介定好人坏人的标准,我是不是需要把期限拉长一点,所以我们需要构建一些数据矩阵,来帮助我们更好的建立好坏的定义。

在做这个的时候,会通过按比例取样,保证我的人群在每一个样本群里面都有一定的样本进到我的模型里面,或者这个模型特别想要知道的那些完全跑路的人,那么就可以把这部分样本的占比增加一些。这也是在做整个模型的过程中,需要考虑的一些问题。

做模型的时候,会遇到好坏正负样本不平恒的问题。一般来说坏人相对是比较少的。那么通过什么样的采样方式使我们的样本做到比较均衡、模型表现比较稳定,也是我们需要考虑的问题。

选样本是有一个观察期和表现期的。就是我选这个建模的数据,需要我申请实点之前的所有数据。我不可能看到未来的数据,然后来判断今天的信用水平,所以我们需要找到一个实点,然后拿之前两年、五年甚至七年的数据来建模型,然后测试样本需要在实点之后的一年、两年来做,那也就是如果我现在要做个模型,我可能至少拿两年之前的数据来建这个模型。那在拿这两年的数据来验证这个模型之后,还要花一段时间建模型,然后我再花半年的时间上线。

这时,我做这个模型的数据已经是三年之前的了,整个行业现在已经发生了翻天覆地的变化,很可能这个模型一上线就失效了。所以这种方式实际上也是被越来越新、越来越快的一些建模技术所取代。包括前面提到的一些机器学习的方法,本身就是在处理这种变量的逻辑,比如缺失值、噪音,新的技术会有更大的容忍度,效果也会更好,更多的引入算法,实现模型的相对快速迭代,也是互相交互的一个过程

在整个互联网金融高速发展的背景下,真的很难花一年时间做一个模型出来,可能三个月的时间就需要把他部署上线。

f 部分

接下来是算法层,应该怎么抽象出这个映射关系。f的话,针对行业来说,尤其在美国的信用评分的构建中,不管是征信局也好,还是银行也好,只能采取的是逻辑回归。

通过一个线性的方法把他叠加起来,然后再增加一层映射,使得映射成从0到1这样的一个概率

这就是保证模型的可解释性,因为我是可以知道每个变量他的正负向是怎样最后影响违约概率的,需要采取这样的模型,是写在监管条例里面的。

大家不要觉得国外的金融行业都在用非常复杂的模型,或者是很高深的技术在做构建模型,实际上他们在做整个模型、变量选择,算法选择是受到严格监管的。在做的过程中间,这个线性模型一般会是我们的基准。根据这样的基本模型,考虑最差的表现或者是最基本的表现可以到什么样的程度。

随着这些年机器学习算法的兴起,针对国内外整个项目建模行业来说,基于机器学习像决策树等很多集成式的算法也是大规模的,然后会应用到建模场景中间来。

04.建模时会用到的几种算法

决策树算法

我们可以理解成他是一个老中医,会经过一系列规则的筛选,比如说望闻问切,通过一层一层的信息采集做出判断你是否得了某种疾病。我们构建的决策树,其实也是类似的一个过程,我们有非常多的变量通过算法构建这样一棵树,那么一个人来了,他把这些东西输进去,我们是可以通过这个程序自动给他一个概率值。

基于决策树的随机森林

我们可以把他想象成一大堆的老中医,这些老中医每个人都有自己的专长,那么我们做的实际上是随机从老中医里面随机抽取一百个。随机抽取的过程中,有的老中医可能擅长看肾病,有的擅长看心脏,有的擅长看皮肤,他的变量是不一样的,然后再把这些老中医放在一起,大家一起投票,然后再决定这个人到底有没有得病,那么这是基于随机森林的方法。

像GBDT这样的方法

他实际上最开始也是有个老中医。这个老中医哪些地方看错了,在这个错的上面去修正,然后再有一个老中医根据他修正的结果,会把这些错的权重给加大,然后一个一个坐诊,最后得到一个结论。


所以这是一个集成算法,当然后面还有非常多的一些算法的原理,还有一些可以持续优化的方式,但是这样一系列的操作下来,有效的规避了我们单一的模型可能出现的错误。通过随机抽取,或者构建多棵树的方式,可以比较好地规避问题


实际的数据测试验证中,我们会基于线性模型的基准之上,用到相对比较新的算法,然后来看他的模型改进是什么样子,他是从哪些方面来改进到这个东西,那么这是F的一个选择。

05.怎样评估模型效果


在信用评分里,我们不仅仅需要关注模型的准确率,还需要关注模型的区分度。我们需要判断好的、坏的人群,他们区分度是什么样子,如果这两个分部交点特别近的话,实际上还是没有找到区别的。但是如果这两个人群分的特别开,是不是也不是一件很好的事情?其实这时做的评分就没有用了。

决定金融机构水平的是,他在一部分交叠的人群里怎么根据人群的风险来决定利率。赚钱来自于哪里呢?每期都按期还钱的人是赚不到钱的,他要赚的钱是从不还钱的人里面赚出来的。通过利率测算然后赚到这部分人的钱,这才能说这个金融机构做得好,所以区分度其实是一个比较重要的指标。

另一个指标就是模型的稳定度。比如我们去一个金融机构贷款,我今天去的时候给我的是700分,那我可以拿到一笔房贷,然后我明天突然变成680,我可能就拿不到了,或者我的利率就高了,这对于我来说是不是一个很不公平的事情?所以我们说的稳定度,也就是实际上这个模型需要去看的一个基准人群的评分,在一个时间段或者三个月之后的另外一个时间段,甚至半年的这个时间段,他的差距有多大、稳定性有多好,我们实际上是更倾向于用浓度高的模型的。

所以这实际上是综合起来衡量一个模型到底好不好的一个指标。所以这就是咨询公司为什么会花时间让一个人特别多的团队,扎在银行里花一年多的时间来开发模型。刚才只是粗略的说一下每个步骤,如果要去细抠的话,是一个非常系统性的耗时耗力的工作。


关注:i 小贝保险

选保险,不焦虑


分享到:


相關文章: