每天超50億推廣流量、3億商品展現，阿里媽媽的推薦技術有多牛？頭條網

2020-12-05 14:47:36 佚名

作者 | 夕顏

出品 | AI科技大本營（ID:rgznai100）

隨著深度學習、強化學習、知識圖譜、AutoML 等 AI 技術出現更多突破，推薦系統領域的企業和開發者開始將這些技術與傳統推薦算法相結合，使得推薦效果得到顯著提升。

不過，越來越複雜的場景、用戶需求等對推薦系統提出了更高的要求。如今推薦系統已經得以大規模應用，然而掀開技術的外殼，審視推薦系統的內核，我們會發現推薦技術還有很多瓶頸亟待突破。

作為 2019 AI ProCon 推薦系統專場（官網：https://aiprocon.csdn.net/）的出品人，阿里媽媽資深算法專家朱小強在接受 AI科技大本營（ID:rgznai100）採訪時，對推薦領域也表達出“當我們越深入，越感覺到現有技術的淺薄”這樣類似的感受。這不禁讓人思考：推薦系統與流行 AI 技術的結合究竟對優化推薦效果起到了多大的作用？打破推薦系統領域瓶頸的突破口在哪裡？怎樣做，才能讓推薦系統更好地服務用戶？

兩大關鍵技術模塊取得突破

阿里媽媽隸屬阿里巴巴集團，擁有其核心商業數據。它每天有超過 50 億推廣流量，完成超過 3 億件商品推廣展現，覆蓋高達 98% 的網民。

面對如此大規模的推廣展現任務，阿里媽媽的廣告推薦系統起到了至關重要的作用。隨著歷史的推演，從 2012 年起，阿里媽媽的預估模型也在不斷的迭代和創新，每年為公司帶來數十億級的收益提高。

朱小強認為，推薦系統的本質，是海量用戶與商品/內容之間的信息配對問題。與搜索技術不同的是，推薦系統輸入缺乏用戶的主動意圖表達，因此“聽聲辨位”是推薦技術的形象描述：“聲”即用戶的歷史行為，這是我們推斷用戶興趣的關鍵線索；“位”即用戶當前潛在的興趣內容，是推薦系統的輸出結果。

能不能聽得真、辨得準，就是推薦技術的核心技能。

定向廣告、信息流廣告等展示類廣告技術，其內核也是系統基於用戶的行為偏好進行內容推薦，因此與推薦系統技術異曲同工。

過去的幾年時間裡，阿里媽媽定向廣告團隊在推薦技術的兩個關鍵模塊上均取得了較大的突破：

匹配召回技術（matching）：在業界首創了第三代基於樹結構的深度檢索系統 TDM[1]。相比於第一代基於統計規則的協同濾波，第二代基於向量化表達的全庫檢索，TDM 技術可以使用任意複雜高階的深度學習模型計算 user 與 item 之間的關係，並且結合 tree-based 的高效索引結構、對全部 item 庫進行全局最優匹配。得益於強大的模型能力，TDM 可以對用戶進行深層次的理解與刻畫，從而召回的結果在多樣性、精準性等方面，相比前兩代技術都有顯著的提升。

預估排序技術（ranking）：阿里媽媽是業界最早一批全面構建、創新自研大規模端到端深度學習模型的團隊，尤其是立足於電商場景、針對海量的用戶行為數據，阿里媽媽持續發力用戶興趣建模技術，提出了深度興趣網絡 DIN[2]、用戶興趣演化網絡 DIEN[3]、用戶多興趣軌道記憶網絡 MIMN[4]、基於行為序貫特性的全空間多任務模型ESMM[5]等一系列業界領先的深度學習算法。這些建模算法極大地拓寬了業界對於點擊率、轉化率等推薦系統核心排序技術的認知，被業界各大公司的同行參考，並做了各種進一步的優化改進，形成了該領域的一個全新流派。

除了matching、ranking 技術的創新外，結合電商場景推薦商品的圖文特性，阿里媽媽在商品創意的理解與自動生成方面也做了大量的工作，如大規模圖像行為理解與建模技術CrossMedia[6]、自動文本生成技術[7]。此外，阿里媽媽還推出了支撐這些工業級複雜深度學習模型的開源訓練框架 X-DeepLearning[8]、高性能深度學習在線推理引擎 Blaze[9]，以及結合廣告/推薦場景深度學習模型特點的稀疏模型壓縮、量化與剪枝技術，如基於 Distillation 技術的輕量級模型壓縮算法Rocket Training[10]等。

這些來自工業實戰的獨特 AI 技術創新，結合阿里豐富的個性化行為數據，推動了阿里媽媽的廣告業務持續、高速的增長。

傳統推薦系統+AI技術，超百億收入增量

阿里媽媽能夠不斷取得突破，與其將傳統推薦技術與新興的 AI 技術結合起來密不可分。從 2010 年左右，阿里媽媽就開始持續發力人工智能技術，用技術的力量來驅動商業的可持續增長。

眾所周知，廣告業務的投入產出比極高，往往 1% 的提升就對應數億、數十億的收入增長。因此，從最初大規模建設的分佈式機器學習技術、圖像NLP技術，到最近的深度學習、強化學習、機器翻譯等技術，阿里媽媽很早就已經在工業場景中涉獵並且大力投入創新研發。

朱小強進一步解釋，今天阿里媽媽絕大部分核心技術模塊基本都構建在深度學習基礎之上，強化學習則驅動了阿里媽媽的廣告策略機制和智能調控算法的關鍵升級。構建在這些 AI 技術之上的業務算法，給阿里媽媽直接帶來的收入增量超百億。據統計，僅DIN/DIEN/MIMN/TDM 等論文中披露的數字顯示，核心場景的點擊率累計提升就超過 40%。

在推薦系統與 AI 技術結合中，朱小強還特意強調了 AutoML 技術的應用現狀。他表示，根據阿里媽媽的經驗和與業界同行的交流來看，類似在圖像領域中直接通過 AutoML 技術搜索出更優模型結構並取得顯著指標提升的可能性不大。不過，AutoML 技術可以用來進行模型精度與算力需求的聯合優化，尋找精度不變情況下更低能耗的模型結構。雖然這種技術本身不會直接帶來效果提升，但是由於它的助攻，使得離線模型算法的設計可以有更大的自由度，生產化落地有更多的保障手段。

抗住工業級場景壓力的“武器”

阿里媽媽本身龐大的業務場景決定了其推薦系統必然需要過硬的技術架構，才能抗住工業級場景下提出的眾多挑戰。

面對實際業務需求，阿里媽媽從 2015 年左右就開始系統地推進工業級深度學習的探索與研發。朱小強回憶道，最初，阿里媽媽只是把深度學習當成是一種新的建模算法，但很快就在算法實驗上取得了突破，他們發現，端到端地訓練一個簡單的分組全連接深度網絡，就比當時線上優化多年，集結了各種調優 trick 的最強 MLR 模型[11]具有顯著優勢。

幸運的是，阿里媽媽很快意識並抓住了這個新技術的突破契機，在 2016 年“ALL-IN”深度學習。

朱小強表示，站在現在看過去，阿里媽媽工業級深度學習的完整體系構建，涵蓋了從算法突破點燃的星星之火，到業界首個面向高維稀疏數據場景的工業級深度學習訓練框架 X-DeepLearning、大規模分佈式 GPU 訓練集群、高性能深度學習在線推理引擎 Blaze、端到端實時深度學習樹型檢索引擎、深度模型訓練/評估/部署的自動化生產鏈路，後續持續升級的大規模實時深度學習 ODL 架構、面向大規模稀疏深度模型的壓縮/量化/剪枝等效能優化技術，以及最新的結合算力算法與系統架構 co-design 的工業級深度學習 2.0 技術體系構建等等。

這個過程並不是一帆風順的，阿里媽媽在每個階段都經歷了無數的挑戰，包括關鍵技術路徑的爭論與判斷、核心算法的艱難突破、算力資源的爭取，以及來自集團/業界的質疑挑戰等。所幸，阿里媽媽克服了所有的困難。

不過，他認為真正決定整個技術體系構建成敗的關鍵挑戰，是由深度學習引發的新一代技術革新對算法、工程、數據、測試等傳統技術工種的融合需求。

“今天我們清楚地認識到，深度學習是一種新的生產力，它需要我們對整個技術體系進行全面改造，阿里媽媽定向廣告團隊在這一輪的技術升級過程中之所以能夠取得一系列的技術領先優勢，除了核心驅動者的超前意識和能力，最大的紅利來自於我們可以協同算法、工程等全部力量，以算法創新為內驅，以業務場景和需求為孵化的土壤，不受固有架構的侷限，勇於打破與重新定義。”

例如，X-DeepLearning 框架就是由算法團隊率先研發，由工程團隊續力做進一步抽象形成的；TDM 全新檢索系統也是依賴算法與工程團隊協同開發才能真正落地；大規模實時深度學習 ODL 架構則是集合了算法/工程/數據/測試全部力量合力打造。

這種跨越工種和團隊組織的 co-design 研發模式，在他看來是工業級深度學習體系研發成功背後的關鍵要素。

工業級深度學習 2.0 時代

此前，朱小強曾發表過這樣的觀點：接下來工業級深度學習將進入 2.0 時代，這個階段面臨的核心問題，是當前深度學習仍然跑在為上一代大規模機器學習模型需求而構建的系統架構之上，但過去的那套架構已經不太適合如今數據、算法和算力背後的需求。

那麼，滿足現在工業級場景需求的系統架構理想中應該是什麼樣的？如何從現有基礎上進行改進或重新構建？

朱小強認為，沒有最理想的系統架構，只有適應當前算力、算法需求，協同發揮最大收益的合理架構。生產關係和生產力從來都是配對出現的。

以推薦系統為例，當前的系統架構普遍遵循的是計算數量逐級約減、計算複雜度逐級上升的結構。但事實上，深度學習算法本身的特性和 GPU 單點算力的巨大飛躍，已經可以打破這種架構設計，後鏈路儘可能地放寬計算約減的約束，甚至儘可能減少中間環節、構建更短的端到端系統。

例如，阿里媽媽近期對粗排架構做了一次升級，打破了傳統粗排模型廣泛採用的雙塔結構，引入更加複雜的、但算力可控的全連接結構，同時粗排引擎升級為全實時計算引擎。這種全新的粗排架構，直接為其帶來了顯著的業務收益，同時為後續拓寬了更大的算法空間。

“架構的演進一定是個循序漸進、各模塊獨立推進的過程，只不過抽象出背後演進的驅動力，我認為可以有一條主線：如何把單點算力通過新的架構放大、進而承載更復雜更實時的計算。”朱小強稱。

另一方面，面向業務場景的需求和數據的特性，需要對算力、算法和系統架構之間做協同設計（co-design），具體應該怎麼做？

朱小強告訴 AI科技大本營，更大體系內的 co-design 設計是一種新的方法論，具體到每個系統模塊或者技術環節，都有著不同的做法。舉例來說：

TDM 是第三代匹配檢索體系，它重新定義了兩個技術：1）全庫檢索模型突破了向量化架構，採用任意複雜的深度模型；2）實時檢索引擎，採用tree-based新型索引而非傳統的正排、倒排索引。事實上，這兩個技術單獨看都不新鮮，甚至以及在其餘技術中廣泛採用了。但是當算法與索引結構 co-design 時，形成了全新的技術。Google 在 2017 年推出的基於機器學習的數據庫 index learning 技術，與 TDM 有著異曲同工之妙。
MIMN 是阿里媽媽研發的新一代點擊率預估模型，在今年的 KDD 會議上已經公開發表。單獨看 MIMN 算法，它雖然很精妙，但非常複雜，難以部署到實際生產系統提供實時在線服務。MIMN 是業界首個面向超長用戶行為序列建模的技術，對淘寶數億用戶、平均歷史行為長度超過 1000 的數據進行建模，離線訓練總歸不是難事，但是如此長的行為序列數據作為特徵提供在線實時服務，系統引擎是遠遠扛不住的。
為此，朱小強團隊結合在線引擎的特點，把計算做了異步拆解，構建了一個單獨的用戶興趣服務 UIC，專門用來計算 MIMN 中複雜的長行為序列模型；同時結合記憶網絡的特點，採用了實時增量計算技術，破解了在線服務的難題。MIMN+UIC的 co-design 設計，使得該團隊得以成功地把這項最新的算法部署上線，取得顯著收益。

然而，朱小強也指出，co-design 的方法論更多的是一種新的技術思考模式，使得我們設計新的技術時可以從更大的視角出發、敢於打破原有約束、重新定義新的體系，而不是什麼靈丹妙藥。

理想中的推薦系統

最後，朱小強還補充了自己從多年從事推薦系統研發工作的經驗中得出的一些思考，“當我們越深入、越感覺到現有技術的淺薄。我心中理想的推薦系統，應該是像相知多年的老友一樣，瞭解你的喜好習性，洞察你此刻的心情，給予貼心甚至驚喜的推薦。它健談但不聒噪，懂得適可而止。當然，它也一定是讓你足夠信賴的。我們今天的推薦系統，就像一個惱人的喋喋不休的話癆，你剛開始談一個話題，它就源源不斷地給你轟炸同質的消息，讓你審美疲勞。”

正如朱小強所說，推薦系統作為最重要的個性化服務應用之一，它的主要功能是提供服務、吸引更多的用戶使用和停留。從這個角度來看，未來推薦技術還有很大的進步空間。

參考文獻：

[1] Han Zhu et al, Learning Tree-based Deep Model for Recommender Systems, KDD 2018

[2] Guorui Zhou et al, Deep Interest Network for Click-Through Rate Prediction, KDD 2018

[3] Guorui Zhou et al, Deep Interest Evolution Network for Click-Through Rate Prediction，AAAI 2019

[4] Qi Pi et al, Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction, KDD 2019

[5] Xiao Ma et al, Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate, SIGIR 2018

[6] Tiezheng Ge et al, Image Matters: Visually modeling user behaviors using Advanced Model Server, CIKM 2018

[7] Yuchi Zhang et al, Improve diverse text generation by self labeling conditional variational auto encoder. ICASSP 2019

[8] https://github.com/alibaba/x-deeplearning/tree/master/xdl

[9] https://github.com/alibaba/x-deeplearning/tree/master/blaze

[10] Guorui Zhou et al, Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net， AAAI 2018

[11] https://mp.weixin.qq.com/s/MtnHYmPVoDAid9SNHnlzUw

好消息！AI ProCon 2019推薦系統技術專場迎來重磅嘉賓

想要聽到朱小強老師更多關於阿里媽媽推薦系統的詳情嗎？歡迎來到 AI ProCon 2019，在大會專設的推薦系統技術專場上，朱小強老師將帶來一場推薦系統技術的精彩分享！

講師簡介：

朱小強，花名懷人，畢業於清華大學，阿里資深算法專家，現任阿里媽媽深度學習算法平臺負責人、兼任定向廣告&信息流廣告排序技術團隊負責人。他主持了三代核心算法架構（大規模、深度端到端、深度實時化）的設計和落地，驅動了深度學習對阿里廣告技術的全面變革與創新，領導了阿里開源深度學習框架X-DeepLearning從0到1的自研、從1到開源演進的全過程，在KDD、AAAI、SIGIR等頂級會議上發表過DIN/DIEN/ESMM等多篇有影響力的工業實戰論文，是workshop DLP-KDD 2019的發起人和聯合主席。

演講題目：

工業級深度學習2.0：算力+算法+系統架構的co-design理念與實踐

演講內容簡介：

推薦系統是個性化服務時代最為典型的應用技術之一，其技術本質是海量用戶與物品的信息配對問題。近些年來，工業級深度學習大規模應用到推薦系統，推動了技術的整體變革升級，取得顯著的業務收益。然而，隨著技術發展的深入，我們很快觸及了深度學習在工業場景應用的天花板：算力突破曾經是引爆深度學習技術的重要推力，今天卻成為了新的阻力；深度學習如黑洞一樣短短數年時間就吞噬掉了上一代技術體系積累的數據、系統、架構以及算力存量，使得新技術的迭代速度逐步下降。

新的挑戰下，如何破局，如何進一步釋放算力、算法的威力，推動技術的下一步升級？聯動算力與算法重新定義新的系統架構，把單點算力通過新的架構放大、進而承載更復雜更實時的計算，這是我們認為的關鍵解法，我稱之為工業級深度學習 2.0。本次演講中我將圍繞著 co-design 的全新方法論，以阿里媽媽的技術演化為樣本，介紹工業級深度學習 2.0 的理念思考與具體實踐。

演講提綱：