06.25 最好的數據科學家,就是把自己給“幹掉”——數據科學50人·丁磊

最好的數據科學家,就是把自己給“幹掉”——數據科學50人·丁磊

題圖/站酷海洛

丁磊,前百度金融首席數據科學家,曾擔任 PayPal 全球消費者數據科學部負責人。其在PayPal 領導建立了平臺級人工智能系統,實現了AI(人工智能)在商業場景中的規模化應用。

在不到兩個月前,百度旗下金融服務事業群“度小滿”,成功融資 19 億美元,成為金融業務領域的新“獨角獸”企業。這一成績被李彥宏評價為:“百度AI 戰略的里程碑事件”。

作為成立僅兩年多的部門,百度金融獨角獸業績的背後,被普遍認為是源於其“ AI 平臺”戰略的支持。丁磊是百度金融的前首席數據科學家,在職期間,他主導了多項基於“AI平臺”的金融科技項目,見證了百度金融迅速崛起的過程。

對於已經在AI行業中浸染多年的丁磊來說,這已經不是他第一次利用“AI平臺”,實現商業業績的規模化增長了。在他看來,將 AI 等數據科學的方法,與實際場景相融合,帶動業績的翻升,早已不是新鮮事。在 2013 年,他就已經在美國領導 PayPal 團隊,成功建設了AI平臺,帶動了 PayPal的業務增長。

不追熱點,不講泡沫,用他自己的話說:“我對於數據科學的信心來自於真正的賦能”。

那麼數據科學究竟能帶來怎樣的賦能呢?

▍成倍的客戶增長

丁磊是 PayPal 2012年成立數據科學部門時的創始數據科學家之一。

彼時,是數據科學概念興起的前夜:移動互聯網的繁榮讓B端積累起了大量的數據,計算機芯片的進步和Hadoop等大數據框架讓處理海量數據變得現實可行;與此同時,在學界已經積累多年的機器學習等算法模型,也終於開始在業界有了用武之地;谷歌等硅谷公司開始大量招募數據科學人才......眾多跡象都表明,這是一個數據科學即將在商業領域迸發的時刻。

在這樣的背景下,PayPal 等硅谷的科技公司紛紛開始成立自己的數據科學部門,希望將數據科學的相關技術應用到實際業務中。

然而丁磊他們起初的實驗並不順利,折騰了一年,PayPal最開始的數據科學團隊,並沒有找到自己在商業世界中的位置。一年後,領隊黯然離職。

“當時團隊遇到的最大問題,是數據科學在公司的落地”,丁磊回憶道,“就是沒有做下去。”

雖然第一年出現了一些波折,但 PayPal 公司在數據科學上的戰略方向並沒有改變。丁磊這時候“臨危受命”,重新組建了新的團隊——PayPal 消費者數據科學部。

最好的數據科學家,就是把自己給“幹掉”——數據科學50人·丁磊

(圖片說明:PayPal 是全球最遍佈範圍最廣的第三方支付平臺之一,目前市值超過千億美元;圖片來源:Flicker,Kimberly Blessing)

在他看來,數據科學之前落地失敗的原因主要有兩個:一方面是商業與數據科學本身的割裂,“也就是說數據科學帶來的收益不能立刻就在商業中體現出來”;另一方面是數據科學的研究沒有產品化,單個項目的成本過高。

“如果一個合作伙伴過來,需要一個產品營銷方案,你從提數據、建模、驗證、迭代......傳統的數據科學流程可能需要至少一個月的時間”,丁磊說道。單個項目的複雜流程限制了數據科學業務的規模化,高昂的人力和時間成本也在制約著這支團隊的發展。

丁磊想到的解決方法是,建立公司內部的“數據科學平臺”,讓數據科學能夠工程化、產品化、規模化地服務現代商業項目。

“數據科學平臺”是一個統稱,它相當於一個大框架,囊括了海量數據分析、機器學習、深度學習、數據可視化和智能決策等諸多技術領域。在設計這個平臺的時候,丁磊的最終目的是希望它能實現對商業項目的部分自動化決策,所以也稱其為“AI(人工智能)平臺”。

幸運的是,丁磊的想法成功了。

PayPal 用了兩年的時間成功建立了自己的 AI 平臺。這個平臺主要有基於 AI 的動機引擎、推薦引擎、以及優化客戶生命週期的 Next Best Action 引擎構成,而這幾個引擎均部署在基於 Hadoop 和 Spark 的大數據平臺之上,能夠跟海量的底層數據銜接,面對需求能夠自動地提出解決方案。

憑藉這個項目,丁磊成功實現了AI的工程化商業落地。到現在,這都是一項非常領先的 AI 業務創新案例。這個平臺為 PayPal 帶來了成倍數的客戶增長,並且至今仍在使用。

之後,PayPal 的業績也出現了飛速的提升,“營銷活動平均響應率應該提升了 2-3 倍,某些營銷活動的點擊率和兌現率超過5倍,總體ROI(DT君注:ROI為投資回報率 Return of Investment 的縮寫)也得到大幅提升”,丁磊說道。

2014年底 PayPal 實現了19.4億美元的利潤,比 2012 年底提升了近 30%。到 2015 年,利潤甚至超過了母公司 eBay。隨後 PayPal 從 eBay 剝離單獨上市,至今市值已經增長了 1.25 倍,超過千億美元。

丁磊的這套 AI 平臺系統也並不是什麼“新事物”,他與 AI 的緣分,其實早在十幾年前就開始了。

▍從0到1的數據科學家

“我在高中的時候就想做 AI 了。”

雖然聽起來有些不可思議,但當丁磊還是一個高中生時,他就非常清楚自己未來的發展方向了。丁磊說,這是源自自己對機器人的喜愛。

但是當時國內高校並沒有開設“人工智能”的相關專業,“那我就選擇一個離AI最近的專業,當時就是計算機了。”高中畢業後,丁磊被保送進入浙江大學計算機學院。一入學他就主動尋找研究 AI 方向的導師,目的非常明確,就是要學 AI。

在這個當年非常小眾的專業方向裡,丁磊卻學得不亦樂乎。他跟隨導師研究自然語言處理中的文本分類問題,在本科階段就發表了一篇國內核心期刊的論文。

最好的數據科學家,就是把自己給“幹掉”——數據科學50人·丁磊

(圖片說明:丁磊應邀在MIT技術大會討論人工智能應用;圖片來源:丁磊)

本科畢業後,他來到美國繼續深造博士學位,研究方向為機器學習和計算機視覺。如果從AI發展的曲線來看,在丁磊求學的很長一段時間裡,AI 都處於“第二春”破滅後的低谷期,發paper難、商業應用難、普遍不看好等等都是常見現象。但在整個學生時代,丁磊的求學都非常積極主動,在自己認定了AI的方向後,他從來就沒有過任何猶豫。

這些年在他身邊,門戶網站、社交網絡、移動互聯網等科技熱浪一浪高過一浪,但是他始終沉浸在自己的AI世界裡。“我喜歡把看過的論文都疊放在一起,等到博士畢業的時候,疊放的論文有差不多一人高吧。”丁磊說道。直到 2006 年,隨著訓練高層神經網絡算法的出現,以及計算技術的持續進步,AI的研究進入第三春,拉開了這一輪人工智能高潮的序幕。

丁磊在美國讀博的時候,曾在 IBM Watson 有過一段工作經歷,那是他第一次與 AI 進行商業化接觸。

“那是 2009 年,我有機會去 IBM 參與其智慧零售項目的計算機視覺部分”,丁磊回憶道。當時IBM 已經將這個項目成功落地在了 Tesco 等超市,一定程度上實現了無人零售的職能,這比阿里巴巴等中國的智慧零售項目要早了將近十年。

作為 AI 商業化概念的先行者,IBM 的 Watson 產品讓丁磊積累了很多讓AI與產業相結合的寶貴經驗,還申請了四項研究專利。這也讓他逐漸萌生了從學界轉入業界的想法。

2011 年丁磊來到紐約後,加入了一家知名風投旗下的創業公司擔任數據科學家,正式轉入產業界。他的第一份工作是利用AI技術為 Expedia (全球最大的旅遊類電商網站)構建用戶行為預測引擎,優化用戶體驗的同時,大幅提升廣告投放效果。

“因為有很多用戶是網站訪客,沒有註冊信息,很難追蹤他們的行為,這讓我們模型的預測過程難度很大。”不過丁磊他們最後設計的模型可以通過理解細微的行為信號,判斷訪客的真正意圖,上線後效果非常好,大幅提升了公司的營收。

這也讓丁磊堅定了自己對AI商業化的判斷。後來他加入了 PayPal,希望在更大的平臺上一展身手,於是就有了前文那套“AI平臺”。

▍與商業“水乳交融”

丁磊認為,數據科學分為三個階段:1.0 的時候是簡單的事後數據分析,例如報表等;2.0 則是利用更為完備的查詢工具和統計方法,輔助業務決策;到 3.0 的時候,就是通過 AI、大數據等方法進行預測分析,進而直接做出決策,也就是現在的 AI 時代。

AI的商業化應用無非分為兩個方面:感知和決策。在學院派階段,丁磊的重點集中在感知層面,包括計算機視覺、聽覺、自然語言處理等,這些考驗更多的是他的科學研究能力。到了商業環境中,效率至上的文化要求數據科學家有更強的業務理解和工程能力,這是丁磊進入業界後發生的一個重要轉變。在他看來,一個數據科學家只有同時具備了:科學、工程和商業三方面的能力,才能釋放 AI 的商業潛力。

不過話雖說得好聽,但隨著時間的發展,越來越多的 AI 鼓吹者們也開始發現,AI 的商業化之路並不好走。不久前,作為 AI 商業化領域的先驅,IBM Watson 突然爆出健康部門將會裁員50%-70%的消息,為 AI 的前景蒙上了一層陰影。

最好的數據科學家,就是把自己給“幹掉”——數據科學50人·丁磊

(圖片說明:根據科技媒體 The Register報道,IBM Watson 健康部門在今年五月底曾爆出大規模裁員消息,為 AI 的商業化前景蒙上了一層陰影;圖片來源:The Register 網站截圖)

“AI 的落地,是商業化過程中的最本質問題。”丁磊說道。“Watson 的問題,除了有大公司僵化的管理制度外,另一方面更重要的是,醫療 AI 落地有個大問題,就是收費方式不明確:AI 提供了服務後誰來買單呢?這在全世界都是一個難題。”

在 PayPal 時期,丁磊之前的數據科學團隊也正是受困於落地的難題,而無法有效讓AI和商業融合起來。在總結了前人的教訓後,丁磊提出 “AI 平臺”策略,他把這個過程稱為“運營化的數據科學”——融合數據、算法、算力和商業模式四個要素,通過高效的運營方法,讓數據科學成為產品,達到規模化效應。

“之前有一個美國大型零售商找到我們,說想要幫他們找到一百萬優質的客戶來投放優惠券。用傳統的數據科學方法,收集數據、建模、調試等估計要花一個月,但是在AI 平臺上,不到一天就可以給到他們靠譜的結果。”丁磊說道,AI 平臺實際上實現了 AI 項目的工程化和產品化的過程,人類數據科學家只不過需要在其結果中稍加調整即可。

這其中,最難的技術問題不是高深的算法,而是如何將對業務的理解,融合進模型層面。“要達到一個技術和業務水乳交融的狀態。例如你如何把一個數據科學家為某個零售商家建立的業務模型,個性化地推廣到所有零售項目中?”丁磊說到,這就不僅僅是機器學習等技術能夠解決的了,需要更有業務經驗的“數據科學家”。

換句話說,AI 平臺就像給機械化的工廠裝上了一個“大腦”,在保持高生產效率的情況下,還能千人千面地提供個性化的產品服務,這就是 AI 的自動化。“最好的數據科學家,最後就是(發明一個 AI 產品)把自己給‘幹掉’”,丁磊笑著說。

優秀的 AI 產品不會依賴於某個數據科學家本身,在離開了 PayPal 多年後,丁磊介紹,自己領導建立的那套 AI 平臺依然在不斷更新,發揮著重要作用。

▍“大家AI,才是真的AI"

2015 年,丁磊選擇回到中國發展。國內日新月異的數據科學環境,讓他看到了更廣闊的市場前景。

他首先選擇了自己更熟悉的金融科技領域,加入了百度金融。他曾參與領導了百度金融與中國農業銀行的“金融大腦”項目,在客戶畫像、精準營銷、信用評價、風險監控、智能投顧、智能客服等方面為農行提供AI服務。

這是丁磊的又一次 “AI 平臺” 實驗,同樣取得了不俗的業績表現。在他看來,如今在中國的產業領域,雖然以AI為賣點的公司越來越多,但只有 BAT 等頭部公司,一定程度上真正做到了 AI 的平臺化應用,大量的行業公司還沒有建立起這套業務體系。

不過也不是所有領域都適合使用 AI,在丁磊看來,滿足大規模落地商業化 AI,需要具備兩個先決條件。首先是數據的積累,數據的數量和質量直接決定了AI發展基礎是否牢固。AI 平臺的底層是數據,數據的流通和更新直接影響著上層機器學習、圖像語音處理等技術的使用效果。其次,就是所在領域的商業問題是否清晰,如果問題不夠明確,也很難用AI來處理。

在所有領域中,金融科技最符合這兩點要求,AI 平臺也最早在此落地。不過,隨著互聯網技術的發展,數據科學等概念已經逐漸在其他領域開始普及,越來越多的開始討論 AI,瞭解數據科學的價值。

“覺得一下子就被人理解了。”丁磊笑著說,當他十年前義無反顧地鑽進 AI 的世界時,那還只是一個不被看好的小眾領域,十年過後,它卻已經變成了大家小巷的熱點談資了,彷彿一眨眼,就“換了人間”。

在丁磊看來,AI 的商業化應用範圍非常廣,如今的中國市場就像一塊等待開墾的處女地。

丁磊為 AI 繪製了一份商業版圖,“如果橫軸是行業,縱軸是職能,AI 現在只是填充了其中非常小的一部分。”

最好的數據科學家,就是把自己給“幹掉”——數據科學50人·丁磊

(圖片說明:AI 商業化的“處女地”示意圖)

在這個版圖中,零售、金融、製造、醫療、教育等是橫軸,代表不同的行業領域;營銷、風控、安全等是縱軸,代表不同的職能方向。二者共同構成了一個二維商業矩陣,對於每個行業中的相關職能,AI都可以探索相關應用場景。

“以後的行業要變成 AI inside (AI 驅動,這個說法是相較於之前的 Intel Inside,芯片驅動)。AI 會成為行業的決策引擎,取代的是在戰術層面上需要人工干預的場景,AI能夠持續有效地讓企業在最佳狀態下運行”,丁磊說道,“而且AI帶來的效果不僅是‘優化’,而是革命性的、成倍數的增長,這才是AI的能力,真正為行業賦能。”

▍數據俠門派

丁磊,美國俄亥俄州立大學計算機系博士,前百度金融首席數據科學家,曾在美國擔任跨國公司PayPal Inc.的全球消費者數據科學部門負責人,領導建立了服務全球數億用戶和數百萬商家的人工智能平臺。並曾在哥倫比亞大學和IBM Watson研究院工作,具有在人工智能、數據科學、金融等領域十多年的從業經驗,在IEEE會刊和頂級學術會議等發表高質量論文逾20篇,獲得美國專利4項,擔任20多個權威國際期刊和專業會議的特約審稿人或委員會成員,並擁有斯坦福大學的高級項目管理證書。

最好的數據科學家,就是把自己給“幹掉”——數據科學50人·丁磊

▍數據科學50人

“數據科學50人”項目是DT財經旗下數據俠計劃重點內容產品,與數據科學領域KOL挖掘數據內容的價值。我們從商業數據科學領域選出最具代表性的50位先鋒進行深度專訪,50人由DT財經獨立評審併發布,第一財經數據科技及合作伙伴傾力支持。

最好的數據科學家,就是把自己給“幹掉”——數據科學50人·丁磊


分享到:


相關文章: