二分類模型——評分卡模型

評分卡模型是金融信貸業務中應用較為成熟的一個模型算法,一般分為申請評分卡、行為評分卡和催收評分卡,評分卡作為風險控制的數據依據,計算得到的分數越高,違約概率越低,安全性越高。

本文簡單梳理該模型的相關流程

應用場景

樣本在貸款申請前、貸款執行中及,貸款到期催收過程中順利被執行的可能性,這一場景可以擴展到大部分的二分類問題:如經典的好瓜壞瓜、電商選品應用、正確錯誤二分類等等,評分卡模型都值得一試。

評分卡模型的應用優勢

1) 模型穩定性較好;

2) 模型預測能力較好;

3) 以評分的高低區分樣本間的差異,易於理解,較好的可解釋性;

由於以上三點,評分卡模型應用於得藝數據選品預期結果較好,但需數據驗證後才能最終確定。

數據清洗

異常樣本刪除

①業務數據有時會有一部分無效數據,在分析前應該剔除,如電商的刷單數據。

②部分業務指標數據質量存在問題,需結合數據分佈特徵、極端數據點考慮刪除。

指標缺失值處理

大部分的數據都會存在缺失值,缺失值處理較複雜且方法較多,根據指標的業務邏輯關係、缺失值比例和數據邏輯選擇對應於各個指標合適的缺失值處理方法。

①直接捨棄,部分指標雖然很重要,但是缺失值較多,有的甚至達到80%以上,若作為特徵加入的話,反而會加入嚴重的噪聲,從而影響最後的模型結果,故此時儘管指標重要,仍然不能使用,需直接捨棄;

②離散數據,缺失值適中,有時採用nan作為數據的一個類別;

③連續性指標缺失值適中時採用連續值離散化,nan同樣作為一個類別;

④插值法,在離散的數據基礎上補插值函數,用以彌補缺失值。插值的經典方法有許多,如:平均值、眾數、中位數、Akima插值法、線性插值法、拉格朗日插值法、牛頓插值法等,具體採用哪種插值法需要結合數據規律確定;

⑤相鄰時間點處理,部分時間序列數據且缺失值較少,數據變化不大,有時會以上一個時間點數值或者下一個時間點數值,或者相鄰時間點數值的加工處理來填補缺失值。

規範化處理

①部分數據指標各個分類不規範,比如藝術品的尺寸:23*23、23cm*23cm、23*23cm,學校數據:清華美院、清華大學美術學院、清美等,此類數據需經過規範化處理,採用統一標準。

②連續數據離散化,根據部分指標意義及數據特徵需要對部分連續數據採用離散化處理,一般根據數據的分佈規律及業務規則對連續數據進行離散化處理。

③各指標間量級差距較大時需採用歸一化或者標準化使得各指標量綱相差不大而不至於影響最後結果的準確性。

數據分箱

評分卡模型需要對數據進行分箱處理,分箱處理方法有等頻、等寬和自動三種,具體選擇哪種,根據數據規律及業務邏輯選擇。

特徵工程

根據數據分享的結果對數據中所有連續變量進行離散化處理,處理完成後計算變量權重以及指標信息價值,通過指標信息價值即可為指標選擇提供支持,亦可為評分卡模型做準備。

此時考慮信息熵增加指標選擇的科學性。根據信息增益、增益率、基尼係數計算各個指標的信息貢獻度/信息重要度,選擇指標進入分析建模。

二分類模型——評分卡模型

線性模型

評分卡模型的實質是邏輯迴歸,為了操作方便且具有較好的解釋性,一般採用可轉化為線性迴歸的邏輯迴歸,得藝大數據選品擬從可轉化為線性迴歸的邏輯迴歸入手,找到合適的模型及參數估計。

二分類模型——評分卡模型

將處理好的數據指標帶入模型,根據損失函數最小化為目標求參數的最優估計值。

模型評估

模型評估有很多,如KS檢驗、混淆矩陣、ROC曲線、Lift曲線,本項目擬採用K折交叉驗證與KS檢驗結合。

KS檢驗主要是驗證模型對違約對象的區分能力,通常是在模型預測全體信用樣本的信用評分後,將樣本按違約率與非違約率分成兩部分,然後用KS統計量來檢驗兩組樣本信用評分是否具有顯著性差異。

處理工具

Excel數據簡單處理

Python中pandas、numpy、matplotlib.pyplot、seaborn處理基本的數據規律及數據清洗,sklearn包做建模、模型評估選擇部分。


分享到:


相關文章: