擔心被「暴雷」?不如做好數據「爲用之道」

擔心被“暴雷”?不如做好數據“為用之道”

作者 | 陳靜

題圖 | 站酷海洛

李丹楓,【友盟+】CDO首席數據官,本科畢業於清華大學,在美國伊利諾伊大學(UIUC)電子與計算機工程專業取得博士學位。“用之為用之,不用為不用,是為用也”,從《論語》名句“知之為知之,不知為不知,是知也”中,李丹楓悟到數據科學重在應用落地的道理,這也主導了他這些年來對數據科學的探索方向。

李丹楓說,在數據科學的世界裡,自己最看重的是“工匠精神”。

一身深灰色T恤,談笑間謙和而沉穩的李丹楓確實有一些“匠人”的特質。他嚴謹、專注,對自己過手的事精益求精。

李丹楓對自己的定位,是一個業務型的數據科學家。區別於學術界追求算法優化而忽略實際應用的做法,他非常注重包括算法在內的數據科學技術,在用戶手中的實用性和穩定性,並認為這是自己的“工匠精神”所在。

“提高效率,或降低成本,或增加利潤”,這是李丹楓給數據產品定的標準,也是他的“匠人原則”。

擔心被“暴雷”?不如做好數據“為用之道”

圖片說明:李丹楓接受數據俠數據科學50人的專訪

▍利基市場裡孕育的人工智能

博士畢業後的李丹楓,本來是打算去一家風口浪尖上的硅谷互聯網公司工作的。

但是2003年初,美國剛剛經歷了互聯網泡沫破裂的餘震,整個互聯網行業式微。機緣巧合之下,李丹楓的第一份工作選擇了美國個人消費信用評估公司FICO。雖然現在因為互聯網金融的興起FICO已經被人熟知,但在當時它的名氣遠遠不如風口中的互聯網公司,相比於他其他同學,李丹楓的選擇顯得很另類。

“現在想想還挺有意思,那時很多人在泡沫破裂前去了互聯網初創公司,泡沫破裂後,那些公司在一夜間就消失了。”當時在硅谷,頭一年還拿著高薪,第二年就失業了的科學家大有人在。

擔心被“暴雷”?不如做好數據“為用之道”

圖片說明:1995年開始的美國互聯網泡沫,來源:Wall Street Journal

李丹楓非常地幸運,他的第一份工作就與人工智能有關。

在二十年前,人工智能並沒有現在這麼火熱。FICO是最早開始將人工智能技術大規模應用在業界生產實踐中的公司。由於FICO的業務是在美國個人信用評級和信用卡反欺詐的利基市場(DT君注:利基市場/niche market是指高度專門化的需求市場,是規模較小的細分市場),因此在當時並沒有受到互聯網泡沫破裂的太大影響。穩定的公司環境讓李丹楓專心在信用卡反欺詐的利基市場中應用他在博士階段學到的人工智能技術。

在李丹楓看來,人工智能當時有兩個方向,一個是模擬人去做人可以做到的事,另一個是幫助人做不能做到的事。

人工智能模擬人的技術在當時非常初級。在當時很多大學和機構的實驗室中,已經有非常多AI初級應用的模型,包括手寫體識別、人臉識別、車牌號識別等等,這些現在熱門的AI應用場景已經開始出現在實驗室中。2000年,李丹楓在IBM Watson實習期間做的手寫體識別技術,就是教機器如何識別手寫數字,通過不斷優化算法和模型來優化識別結果,但準確率只能達到95%左右,並沒有達到應用到實踐中的要求。現如今,利用谷歌的TensorFlow已經可以將手寫識別的準確率提高到99%以上。

在FICO,李丹楓的工作就是利用人工智能“幫助人做不能做到的事兒”——信用卡反欺詐。全世界每天產生海量的交易,人做不到一筆一筆去檢查是否有可能是欺詐,這時候,就需要機器對交易數據進行初篩,再將可疑的交易反饋給人工檢查。

另外,觀察到在建模過程中,很多環節都是依賴於人工,有不少優化的空間,李丹楓就建立了一套自動化建模的流程, 只需修改幾個配置文件, 就可以實現自動建模,不僅將建模的時間大大縮短,而且減少了許多人為的錯誤。這個系統被公司使用了很長時間。

在FICO工作的經驗,讓李丹楓不僅較早地應用了人工智能技術,還培養了他的“匠人”思維——重視數據產品的實用性。在FICO做的模型需要滿足多家銀行的需求,在服務多個客戶的過程中,李丹楓意識到數據質量和模型穩定性很重要,這決定了模型能否在實際應用時成功落地。

現在回過頭看,很多泡沫期的硅谷互聯網公司已經消失,而李丹楓在機緣巧合下的選擇卻為他在數據分析和人工智能領域鋪就了堅實的基石。

▍擁抱國內的大數據浪潮

2014年,在美國數據分析和挖掘領域工作十多年後,李丹楓回到國內加入了【友盟+】,也加入了國內數據科學的發展大潮。

擔心被“暴雷”?不如做好數據“為用之道”

圖片說明:李丹楓在【友盟+】

“2014年國內的創業氛圍熱火朝天,時刻有新鮮事物湧現,與國外的沉寂反差巨大。我希望回到國內以後,自己的技術長處能與業務有更多結合,驅動自己做更多正確的事。”談到美國與中國在數據科學領域的區別,李丹楓認為國外的環境更像是一個“實驗室”,國內則更像一個“試驗田”。

他觀察到,美國公司裡有很多安心做研究的人,會去做長期性的底層工作,學校和公司裡研究院的資源也比較豐富。現在流行的人工智能和大數據處理技術大部分都源自美國的實驗室。另一方面,在美國這一較成熟的市場上,數據的使用受到了非常嚴格的管控,應用場景也大大受限。比如在信用評級過程中,用戶的性別、年齡、種族、居住地等數據都被法律禁止使用,因為公眾擔心自己會因為這些因素而受到歧視,銀行可能會根據這些數據評估用戶的信用級別,進而針對不同群體制定不一樣的利率。

中國雖然在基礎研究領域不突出,但在應用層面優勢明顯。在國內這一新興市場,龐大的用戶群體產生了豐富的數據,帶來了更加多樣的應用場景,也有著自由度更高的數據使用環境。國內廣闊的市場前景是最吸引李丹楓的地方。儘管在美國已經有家庭的羈絆,最終他還是決定回到國內,完成從技術人才到團隊管理者的角色轉變。

在國內,李丹楓的團隊面對的是涵蓋超過7億真實網民的全域數據,其中包括了手機、電腦、媒體、實體店鋪等線上線下產生的數據等等,是一個名副其實的“數據試驗田”。他山之石,可以攻玉。李丹楓將自己豐富的金融業務經驗,首先嚐試應用在了互聯網金融風控領域。

2016年,在中國互聯網金融興起的時候,其主要的用戶群體大多沒有人行徵信數據,金融機構缺乏數據來鑑別欺詐行為,降低違約風險。李丹楓敏銳地意識到,在移動設備上的行為數據,或許可以用來破解風控難題。

在風控數據金字塔模型中,與風控相關性最強的是人行徵信數據,但只有3.5億的用戶。底部的設備行為數據,雖然能夠覆蓋大部分網民,但是數據的應用難度也最大。李丹楓的團隊結合多維數據和機器算法,形成金融風控模型,幫助金融企業提高風控決策模型的覆蓋率和準確率。

擔心被“暴雷”?不如做好數據“為用之道”

圖片說明:互聯網金融風控數據金字塔模型;圖片來源:【友盟+】

其中比較典型的是多頭借貸問題。基於手機上的行為數據,李丹楓團隊可以判斷哪些人是更有可能多頭借貸的人。“比如這個人會安裝多個借貸App,並且安裝了自動搶紅包、返利、博彩遊戲之類的App”,李丹楓說道。除此之外,他們還會結合App使用的時間、時長、頻次、興趣偏好,以及手機的操作系統、品牌、價格、質量等上千個維度的數據來判斷。李丹楓團隊從這些相關性很弱的數據中提取信息,通過機器學習建模,用邏輯迴歸模型和樹模型,通過時間序列的變量計算輸出一個分值,從而判斷借貸人的違約風險。

擔心被“暴雷”?不如做好數據“為用之道”

圖片說明:深度學習行為風控的三個場景;圖片來源:【友盟+】

▍龐大的數據背後是責任

十幾年間,李丹楓見證了數據科學行業突飛猛進的發展。

隨著數據量的不斷增長和計算力的不斷增強,模型的複雜度也在不斷的提高。現在,李丹楓要面對的是服務 150 萬款 App,710 萬個網站,14 億個設備的海量數據,數據存量高達55PB。如果拿一張 A4 紙,用正反兩面把所有數據都寫下來,紙壘起來可以裝 15 萬輛卡車。這些數據每天的運算量需要2 萬個計算單元,相當於200個地球上的100億人一天24小時不間斷地運算。

“龐大的數據背後是責任。”

李丹楓認為,在實際生產環境中,如果不真正理解數據,往往會造成不可控的結果。現在隨著建模能力越來越強,很多人在不理解數據的情況下直接把數據放到模型裡去,他認為這是一種很不負責的行為。

在龐大的數據背後,需要數據科學家的“工匠精神”來支撐整個機制的運作。“數據科學家要對自己的模型和分析結果負責,要理解數據本身”,李丹楓說道。在多年的數據生涯中,他也總結了自己的一套應用方法論。

“用之為用之,不用為不用,是為用也”,他認為數據的應用需根據其特點找到合適的場景,“就像你無法用棉花造出飛機一樣,每一種數據都有適用和不適用的場景。一定要清楚數據的來源和特性,找到數據本身和問題之間的相關性,使所用的數據能夠解決本質的問題,這是一款數據產品取得成功的關鍵。”李丹楓要求自己時刻從現實的生產環境出發,思考如何讓數據模型能夠在複雜多變的現實環境中穩定地運轉。

舊時的工匠對每一個零件、每一道工序都精心打磨,李丹楓對待數據產品同樣如此。從源頭數據質量的把控,到模型特徵的加工,他將數據產品的穩定性貫徹到建模的每一步。不管現在的模型有多發達,他都會鑽研透徹每一個業務的細節,為每一個產品量身定製最合適的模型。

李丹楓的責任感還體現在對數據安全和用戶隱私的重視上。

大數據服務所帶來的便利正悄然改變著人們的生活,但數據洩露和隱私的問題卻時刻在威脅著每一個人和每一家公司。2017年3月,某公司試用期員工與網絡黑客勾結,盜取涉及交通、物流、醫療等個人信息50億條,在網絡黑市販賣。據統計,截至2017年2月,中國有15046個MangoDB數據庫暴露在公網,數據安全問題日益凸顯。

大數據應用場景下,無所不在的數據收集使得人們難以控制其個人信息的去處。利用大數據的超強分析能力對多源數據進行共享,能將原本經過匿名化處理的數據再次還原,用戶的隱私時刻面臨著威脅。

為了保護用戶隱私,李丹楓在建模的每一步都十分注意安全問題。他以互聯網金融風控模型為例,在實際的建模過程中,他們往往會使用到多達150萬個維度的行為數據,但是並不會對外透露數據細節,而是輸出標準化的風險指數,在保護用戶隱私的前提下去評估用戶的信用情況。

▍因果關係才是理解世界的方式

雖然人工智能在今天被炒得火熱,但李丹楓認為現階段它還是“弱”人工智能。

為此,他和團隊提出了一個 “數據智能”(Data Intelligence)的概念。他覺得現在的人工智能是依賴大量的數據來訓練一個參數眾多的“黑箱模型”,從而找到數據之間的相關關係。這些模型是建立在輸入數據和輸出數據的“相關關係”上的,而不是建立在“因果關係”上。與其說是“人工”智能,不如說是“數據”智能。在李丹楓看來,因果關係才能幫助我們理解世界。我們知道了植物是怎樣生長的,才有了萬畝良田;知道了電和磁的相互轉化,才有了萬家燈火。

人類只有能夠解釋世界,才能理解世界,從而進一步改變世界。比如愛因斯坦著名的質能方程E=mc²,簡單的三個參數解釋了質量和能量之間的關係,人類在此基礎上進一步用核裂變技術造出了原子彈,也使用上了核電。

擔心被“暴雷”?不如做好數據“為用之道”

圖片說明:原子彈爆炸 來源:中國科學院近代物理研究所

因此,李丹楓認為未來大數據領域最有待突破的是模型的可解釋性。真正的智能,在於能夠幫助我們找到因果關係的模型,未來的強人工智能或許可以幫助人類去從大數據中歸納總結出簡單的因果關係,去發現世界的運行規律。

不過,對於強人工智能時代的到來,他認為還需要經過很長一段時間。“現在人工智能在互聯網、金融、醫療、物流、教育等領域都有很好的開端,當下大數據主要的發展方向是在更多的領域找到落地場景”, 李丹楓說道。

人工智能的第三次熱潮能持續多久?未來的強人工智能可以幫助人類認識到更多世界的運行規律嗎?我們或許還沒有確切的答案,但在人工智能浪潮中,像李丹楓這樣懷揣著工匠精神的數據科學家在各個領域腳踏實地地打磨好每個產品,將人工智能深深紮根在人們生活的方方面面,未來的美好圖景或許就在不遠的將來。

▍數據俠門派

李丹楓,【友盟+】CDO首席數據官,目前負責【友盟+】數據科學團隊,所參與的產品在金融,保險,搜索,互聯網廣告及零售業中有廣泛的應用。

李丹楓本科畢業於清華大學,後在美國伊利諾伊大學(UIUC)電子與計算機工程專業取得博士學位。畢業之後在美國數據分析和挖掘領域工作10多年,曾任職於包括雅虎,微軟,FICO(美國個人消費信用評估公司)等在數據應用走在前沿的公司,積累了豐富的數據挖掘和機器學習的實戰經驗。

擔心被“暴雷”?不如做好數據“為用之道”

▍數據科學50人申請進行中...

“數據科學50人”項目是DT財經旗下數據俠計劃重點內容產品,與數據科學領域KOL挖掘數據內容的價值。我們將從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,由DT財經獨立評審併發布,第一財經數據科技及合作伙伴傾力支持。

擔心被“暴雷”?不如做好數據“為用之道”

▍加入數據俠

“數據俠計劃”是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。瞭解數據俠計劃詳情請回復“數據俠計劃”,投稿、合作請聯繫[email protected]

擔心被“暴雷”?不如做好數據“為用之道”


分享到:


相關文章: