風控場景中地址信息的處理和使用-下|風控技術講解

風控場景中地址信息的處理和使用-下|風控技術講解

在上篇推送中系統地梳理了地址的種類和利用地址的欺詐手法,本文將以此為基礎,介紹一下地址的處理和使用方法。

地址的標準化

通常,人類在應對非常規信息時,有自動識別能力,可以將這種信息進行自我消化,並轉化為可理解信息。機器在處理標準化信息時,會顯得非常高效,然而如果將信息順序調亂,且混入錯誤信息,此時,機器的準確性就會降低。因此,通常情況下,機器需要輸入標準化信息。

為了增強地址的識別度,使機器看得懂,需要對地址進行標準化。什麼是標準化?在網上購物我們填寫收貨地址時,通常,這些購物網站會將地址按照省+市+區+街道+詳細地址這五項來選。對於我們不太確認的地址,平臺還提供“暫不知道”這一選項,並會根據填寫的詳細地址來做匹配,以完善標準化的信息。

如下圖所示

風控場景中地址信息的處理和使用-下|風控技術講解

按照省+市+區+街道四個等級填寫,且在街道不確定時提供“暫不知道”選項。

風控場景中地址信息的處理和使用-下|風控技術講解

再完善詳細地址後,會自動匹配對應街道。

地址修復方法

在採集時強制處理是地址標準化最簡單有效的做法。但對於歷史數據的修復,以及對錯誤數據的更改和對特殊字符的處理,則需要比較細緻地處理。以下羅列了幾種常用的方法。

風控場景中地址信息的處理和使用-下|風控技術講解

常見地址修復方法

風控場景中地址信息的處理和使用-下|風控技術講解

不同種類地址的評估維度

地址標準化好後,就可以根據地址的靜態信息和動態信息對用戶進行畫像了。

貼標籤

地址標準化並根據評估維度進行字段衍生後,就可以為每個地址/區域貼標籤了。標籤也可以按照幾個維度來貼:

1.按照省、市、區、街道、商圈、樓、室幾個級別;

2.按照房價絕對值和相對值;

4.按照地址屬性,例如:模糊地址標籤,虛假地址標籤等

5.按照地址/區域逾期率;

6.按照地址接收的平均訂單金額/訂單量;

7.按照訂單商品;

8.按照收貨地址變化頻率;

9.按照公司地址行業;

10.按照公司屬性來貼,例如:是屬於政府機關、學校還是企業?

補充說明

其中,第6條和第7條再額外解釋一下。在消費分期場景中,用戶會有一個授信額度,可以在電商平臺上購物。欺詐份子套現方式就是一次性用光額度購買手機等易變現商品。

例如,近期比較容易變現的是一款899的手機和799的手機。那麼,假設作為用戶獲得的額度為2500元,作為欺詐份子會充分利用這一額度,巧妙組合,例如:兩款799➕一款899,也即799*2+899=2497<2500,成功薅完了所有的額度。那麼,結合地址信息,如果一個地址的訂單金額都約等於授信額度,且寄送的商品品類如手機和型號(如價格899或者799的手機)集中,則可能為高風險客戶。

這個過程有點類似於給人物做側寫或者畫像,但這裡的對象不是人,而是地址。一個好的地址畫像需要結合場景和業務知識,同時要對數據分佈做詳細周密地分析。此處無監督機器學習可以提供的就是對地址的分群處理。為了形象地描述,我們將無監督機器學習的應用抽象成如下案例以方便大家理解。

對於一組雜亂的數據,逾期率為1%。我們通過一定手段對地址進行了分詞處理,發現其中包含“電腦”和“手機”兩個詞的群組中,逾期率高達80%。於是,我們給包含了“電腦”和“手機”的地址貼了一個標籤【零售商】,若結合業務知識,還可以給諸如“華強北”、“賽格”等詞彙同樣貼上【零售商】的標籤。

所以,簡單來說,地址文本的非結構化給地址的標註帶來了一定難度,而無監督有利於整理這些詞彙,有點像excel裡的篩選和排序功能,只是,對地址的處理,你不知道是按照什麼條件來篩選和排序,而無監督給了你一個可能的篩選條件和思路,讓你無需對案件進行獨立分析,而是批量分析,從而大大節約了時間。

寫在最後

當然,單從地址信息這一個維度,不足以準確判定欺詐行為,僅能作為其中一個角度。為了不因為一刀切而導致的高誤傷,欺詐屬性的判別中,還是需要非常強的擴維能力,從各個角度進行欺詐屬性的綜合評分才能獲得更加精準的效果。


分享到:


相關文章: