12.31 蔣傑:價值驅動,擁抱開源,從Angel平臺看騰訊大數據打法

大數據作為一個技術浪潮已經歷了多年的時間。騰訊作為國內流量最大的互聯網企業,對於大數據技術有著巨大的業務需求。在大數據平臺的建設上,騰訊走出了一條「價值驅動,擁抱開源」的發展路徑。

蔣傑:價值驅動,擁抱開源,從Angel平臺看騰訊大數據打法


近日,騰訊在 2017 年開源的 Angel 機器學習平臺從 Linux 基金會旗下的 LF AI 順利「畢業」,成為國內第一個成功畢業的開源項目,這無疑是為 10 年來騰訊大數據業務發展畫下的重要一筆。說起騰訊的大數據業務,乃至其全棧機器學習平臺,很多人可能還並不熟悉。而騰訊在發展這一平臺的路徑上也有著自己獨特的考量。

在 Angel 平臺畢業後,機器之心採訪了騰訊數據平臺部總經理、AMS 平臺總經理、智慧零售戰略合作部總經理 蔣傑 博士。蔣博士為機器之心介紹了騰訊大數據在發展上的思路,以及面對業務增長變化、大數據產業中的新變化和開源社區興起等因素影響下騰訊大數據的發展方向。

騰訊大數據的發展:為業務而生

據蔣傑介紹,騰訊大數據的發展,經歷了三個階段:離線計算(2009-2012)、實時計算(2012-2015),以及機器學習(2015 年至今)。在 2012 年去掉 Oracle 之後,騰訊選擇用 Hadoop 構建起初具規模的離線計算集群。而隨著廣告、推薦等方面的需求增長,業務對計算結果的實時性要求越來越高。因此在第二個階段,騰訊選擇 Spark 和 Storm,以此建立了滿足實時性要求的大數據體系。保證在廣告、新聞、金融等方面滿足要求。

而近來業務中對用戶維度的增長和用戶群體挖掘等方面有了更高的要求,因此騰訊轉向了研發並開源 Angel 機器學習平臺。在 2015 年後,騰訊的大數據業務邁向了機器學習這一新階段。

Angel 平臺:滿足業務形態

Angel 是騰訊的首個 AI 開源項目,於 2015 年聯合北大開始研發,2016 年底推出、

2017 年開源

。作為面向機器學習的第三代高性能計算平臺,Angel 致力於解決稀疏數據大模型訓練以及大規模圖數據分析問題。

相比於 TensorFlow, PyTorch 和 Spark 等同類平臺,Angel 具有如下特點:

  • Angel 是一個基於 Parameter Server(PS)理念開發的平臺。良好的橫向擴展能力讓 Angel 能高效處理千億級別的模型;
  • Angel 具有專門為處理高維稀疏特徵特別優化的數學庫;
  • Angel 擅長推薦模型和圖網絡模型相關領域(如社交網絡分析),在稀疏數據和高維模型方面的處理能力更強。
蔣傑:價值驅動,擁抱開源,從Angel平臺看騰訊大數據打法

「騰訊技術發展的邏輯是服務產品。」蔣傑在採訪中表示。騰訊的心態是開放的,對各自的業務越匹配、越有用、研發投入越少、效率越高,是用技術服務好業務最高的追求。

Angel 的各項技術能力,正是為了滿足騰訊業務中的需求而生的。

以廣告精準推薦需求為例,十億級用戶的特徵維度都是稀疏的,在處理這樣的稀疏矩陣時,傳統的深度學習框架在性能上就會相對不足。因此,面對自身業務的特點,騰訊開發 Angel 平臺的首要意圖便是為了滿足自身的技術需求。

這樣一來,騰訊形態各異的業務便可以通過一套統一的大數據平臺進行計算,為每項業務都提供相應的技術方案。Angel 平臺包含了傳統的機器學習算法和深度學習算法,也有圖方面的算法,這些都可以在騰訊的實際業務中找到應用場景與價值。

例如,圖計算能力便是針對用戶特徵、人群畫像和社交關係鏈的,而簡單的邏輯迴歸算法也可以進行用戶畫像的刻畫。神經網絡,如 DNN 則對應人群特徵挖掘,CNN 用於特徵管理等。

蔣傑:價值驅動,擁抱開源,從Angel平臺看騰訊大數據打法

Angel 平臺支持的圖計算體系架構。

蔣傑表示,Angel 平臺的作用是一個綜合性的機器學習平臺,和 TensorFlow、PyTorch 等不在一個維度。事實上,為了滿足內部的使用需求,Angel 平臺封裝了 PyTorch、TensorFlow、Spark 等框架,開發人員可以根據業務需求進行靈活的選擇使用。

價值驅動,務實演進

這樣看來,似乎 Angel 機器學習平臺的特點不明顯?恰恰相反,對技術演進非常務實,集中力量應對業務中的需求是 Angel 平臺發展中最大的特點。

為什麼對新技術的採用如此保守和低調,這正是騰訊在發展 Angel 平臺過程中謹慎的態度。據蔣傑介紹,騰訊大數據目前面對的挑戰是在業務增長的情況下保證:

  • 成本持續降低;
  • 性能與效率提升,故障率降低;
  • 閒置資源的最大化利用等。

這就需要在很多地方持續對整個體系進行優化,包括數據壓縮的比例、網絡傳輸的效率、精細化運營的效果等。這些遠遠不是簡單的在平臺上增加新算法,或者提升現有算法準確率就能夠實現的。

當然,在 Angel 平臺的發展過程中,除了已有的問題外,大數據業務中出現了一些新的問題,這些都對騰訊大數據發展帶來了新的挑戰。

數據隱私越發重要,Angel 平臺如何應對

在採訪中,蔣傑博士認為,當前遇到的最大困難就是「數據牆」問題。具體來說,在一個公司內部,各個業務和部門之間都會擁有自己的數據。在數據為王的時代,這些數據無疑是最有價值的資產。

面對強大的數據壁壘,如何進一步提升數據價值而又不觸碰數據隱私紅線,騰訊大數據考慮了多種方法進行應對。這將是未來 Angel 平臺將會引領的重要方向。

用統一的大數據平臺打通部門數據壁壘

在騰訊內部,為了減少數據壁壘帶來的障礙,騰訊近年來採用了平臺組件開源、多團隊協同共建的方式。通過打造內部統一的大數據平臺體系,讓這一平臺在各個業務部門中間實現功能複用、從而提升數據開發和應用效率。這樣可以彌補因數據壁壘帶來的成本損失,整體上降低開發和運營的成本。

例如,騰訊內部的天穹大數據平臺是這一思路下的案例。這一平臺使用開源共建的方式,讓內部業務部門以開源協同的方式參與研發工作,讓平臺在滿足業務需求的同時打通成為統一的底層基礎支撐。

聯邦學習:讓數據計算變得可信

在外部解決數據信任問題也尤為關鍵。聯邦學習因此進入了騰訊的視線。

聯邦學習可以被定義為一種新的機器學習算法。由於自身數據的侷限性,模型需要更多的數據進行計算,提升其效果。而由於用戶數據隱私的問題多個參與方之間直接共享數據不太現實,而聯邦學習通過參與方共享數據特徵或模型梯度的方式,讓所有的參與方在不洩露自身數據的情況下獲得效果更佳的模型。

聯邦學習無疑是 Angel 平臺正在考慮的發展方向。騰訊需要保護用戶數據,同時騰訊的合作方如金融機構等,也需要確保數據隱私和安全,因此聯邦學習成為未來發展的必然選擇。

蔣傑:價值驅動,擁抱開源,從Angel平臺看騰訊大數據打法


當然,聯邦學習的發展也會有一些困難。如在數據加密後是否會帶來數據大小膨脹的問題,這就需要合適的加密算法。此外,在技術之外,能夠推動客戶和監管方認可聯邦學習保護數據安全和隱私的能力,這也需要時間。最終,應用這樣的技術和算法需要多少額外的成本和技術投入也需要納入考量。比如在《歐洲數據保護條例》生效後,騰訊需要根據監管的要求,在業務上進行相應的技術調整,部署額外的數據保護措施。

ABC 融合:通過混合雲提供技術服務

另一個發展的趨勢便是繼續推動 ABC 融合,即人工智能(AI)、大數據(Big Data)和雲計算(Cloud)的融合,並採用混合雲的方式為業務和合作部門提供服務。在這一體系中,雲計算作為基礎設施,包括公有云和私有云的融合,保護關鍵數據的安全。而大數據進行數據收集、處理、分析等,提供計算支持,最後使用人工智能,進一步挖掘數據中的價值。

蔣傑認為,數據壁壘的「牆」是很厚的,需要多種方式共同解決。在聯邦學習方面,騰訊會和客戶、合作方共同進行聯合數據建模。在雲計算方面,則通過客戶的私有云和騰訊的公有云進行混合部署。同時,騰訊計劃在漂移計算等新技術方面進行投入,逐步打破數據壁壘。

面對數據隱私安全帶來的新挑戰,騰訊無疑已做好了準備。而很多人忽略了的另一個重要的發展思路,則是騰訊對開源的開放態度。從 Angel 平臺的開源來看,騰訊大數據在接下來的發展中將會和開源社區結合得更加緊密。

擁抱開源,Angel 平臺可見一斑

早在 2017 年,Angel 平臺便在 GitHub 上開源。截止目前,Angel 在 GitHub 上已經獲得了 5600 Star、1400 Fork,這些數據說明了社區對 Angel 優秀表現的認可。

而騰訊不滿足於僅僅只是「公開」這一項目。同年,騰訊將這一項目託管給了 LF AI 基金會。蔣傑表示,這一舉措有著對項目深層次的考量。首先,LF AI 基金會對託管的項目有很高的要求(如代碼規模、質量等)。將項目託管,說明基金會也對這一項目的進行了認可。

另一方面,基金會託管的項目可以更好地獲得社區的關注和使用,並得到基金會本身的監督和促進。相比在 GitHub 上開源後缺乏用戶而漸漸無人問津,或因開發者/開發商缺乏後續維護和改進的動力而漸漸死去的項目,通過外部管理的方式能夠更好地促進 Angel 的發展,讓這一項目暴露在更多使用者前,發現問題並繼續改進。

最後,LF AI 基金會對於獲准「畢業」的項目也有著嚴格的標準。通過了考核便獲得了開源社區正式的認可,這對於大規模推廣 Angel 的使用,提升其能力非常重要。

採訪中,蔣傑博士表示,騰訊大數據會繼續開源更多的項目給 Linux 基金會和 Apache 基金會等,通過開源的方式讓項目和業界標準接軌,促進與技術社區的交流。

除了算法方面,騰訊也披露了其他方面的開源計劃,如雲計算、邊緣計算等領域,甚至包括微信小程序等方面的開源也會在明年有進一步動作。

面對開源所帶來的開放和競爭的關係,騰訊則有著自己的思考。蔣傑博士認為,開源社區中,大企業和社區實際上是相互依賴的關係,不存在一家獨大的情況。當體量變大、平臺變大後,技術才能面對很多實際業務中碰不到、想不到的問題,因此才能更好的進步。

這樣的思路,也是騰訊大數據在保持低調務實的同時,積極推進開源的原因吧。


分享到:


相關文章: