馬蜂窩推薦排序算法模型是如何實現快速迭代的

2019-11-08 12:24:50 sandag

Part.1

馬蜂窩推薦系統架構

馬蜂窩推薦系統主要由召回（Match）、排序（Rank）、重排序（Rerank）幾個部分組成，整體架構圖如下：

在召回階段，系統會從海量的內容庫篩選出符合用戶偏好的候選集（百級、千級）；排序階段在此基礎上，基於特定的優化目標（如點擊率）對候選集內容進行更加精準的計算和選擇，為每一條內容進行精確打分，進而從候選集的成百上千條內容中選出用戶最感興趣的少量高質量內容。

本文我們將重點介紹馬蜂窩推薦系統中的核心之一——排序算法平臺，它的整體架構如何；為了給用戶呈現更加精準的推薦結果，在支撐模型快速、高效迭代的過程中，排序算法平臺發揮了哪些作用及經歷的實踐。

Part.2

排序算法平臺的演進

2.1 整體架構

目前，馬蜂窩排序算法線上模型排序平臺主要由 通用數據處理模塊、可替換模型生產模塊、監控與分析模塊 三部分組成，各模塊結構及平臺整體工作流程如下圖所示：

2.1.1 模塊功能

(1) 通用數據處理模塊

核心功能是特徵建設以及訓練樣本的構建，也是整個排序算法最為基礎和關鍵的部分。數據源涉及點擊曝光日誌、用戶畫像、內容畫像等等，底層的數據處理依賴 Spark 離線批處理和 Flink 實時流處理。

(2) 可替換模型生產模塊

主要負責訓練集的構建、模型的訓練以及生成線上配置，實現模型的無縫同步上線。

(3) 監控與分析模塊

主要包括上游依賴數據的監控、推薦池的監控，特徵的監控與分析，模型的可視化分析等功能。

各個模塊的功能以及他們之間的交互使用 JSON 配置文件進行集成，使模型的訓練和上線僅僅需要修改配置就能完成，極大提升了開發效率，為排序算法的快速迭代打下了堅實的基礎。

2.1.2 主要配置文件類型

配置文件主要分為 TrainConfig、MergeConfig、OnlineConfig、CtrConfig 四類，其作用分別為：

（1）TrainConfig

指訓練配置，主要包括訓練集配置和模型配置：

訓練集配置包括指定使用哪些特徵進行訓練；指定使用哪些時間段內的訓練數據；指定場景、頁面、和頻道等
模型配置包括模型參數、訓練集路徑、測試集路徑、模型保存路徑等

（2）MergeConfig

指特徵配置，包括上下文特徵、用戶特徵、物品特徵、交叉特徵的選擇。

這裡，我們將交叉特徵的計算方式也實現了配置化。例如用戶特徵中有一些向量特徵，內容特徵也有一些向量特徵。當我們希望使用某兩個向量的餘弦相似度或者歐式距離作為一個交叉特徵給模型使用時，這種交叉特徵的選擇和計算方式可以直接通過配置實現，並且同步的線上配置中供線上使用。

（3）OnlineConfig

指線上配置，訓練數據構建的過程中自動生成供線上使用，包括特徵的配置（上下文特徵、用戶特徵、內容特徵、交叉特徵）、模型的路徑、特徵的版本。

（4）CtrConfig

指默認 CTR 配置，作用為針對用戶和內容的 CTR 特徵進行平滑處理。

2.1.3 特徵工程

從應用的視角來看，特徵主要包括三類，用戶特徵（User Feature）、內容特徵（Article Feature）、上下文特徵（Context Feature）。

如果按獲取的方式又可以分為：

統計特徵（Statistics Feature）：包括用戶、內容、特定時間段內的點擊量/曝光量/CTR 等
向量特徵（Embedding Feature）：以標籤、目的地等信息為基礎，利用用戶點擊行為歷史，使用 Word2Vec 訓練的向量特徵等；
交叉特徵（Cross Feature）：基於標籤或目的地向量，構建用戶向量或物品向量，從而得到用戶與物品的相似度特徵等

2.2 排序算法平臺 V1

在排序算法平臺 V1 階段，通過簡單的 JSON 文件配置，平臺就能夠實現特徵的選擇、訓練集的選擇、分場景 XGBoost 模型的訓練、XGBoost 模型離線 AUC 的評估、生成線上配置文件自動同步上線等功能。

但在使用過程中，我們仍然發現了一些存在的問題：

模型上線效果與預期表現不一致時，很難排查和定位原因，影響模型的迭代開發
由於模型的不可解釋性，很難建立對模型和特徵的深入認識，以輔助模型的優化

2.3 排序算法平臺 V2

針對上面存在的這些問題，我們在排序算法平臺的監控分析模塊增加了 數據驗證、模型解釋 的功能，幫助我們對模型的持續迭代優化提供更加科學、精準的依據。

2.3.1 數據驗證（DataVerification）

在算法平臺 V1 階段，當模型離線效果（AUC）表現很好，而線上效果不符合預期時，我們很難排查定位問題，影響模型迭代。

通過對問題的調查和分析我們發現，造成線上效果不符合預期的一個很重要的原因，可能是目前模型的訓練集是基於數倉每天彙總的一張點擊曝光表得到。由於數據上報延遲等原因，這張離線的點擊曝光表中的一些上下文特徵與實時的點擊曝光行為可能存在誤差，帶來一些離線和線上特徵不一致的問題。

針對這種情況，我們增加了數據驗證的功能，將離線構建的訓練集與線上打印的實時特徵日誌進行各個維度的對比分析。

具體做法就是以線上的實時點擊曝光日誌（包含所使用的模型、特徵以及模型預測分等信息）為基礎，為每條實時點擊曝光記錄都增加一個唯一 ID，在離線彙總的點擊曝光表中也會保留這個唯一 ID。這樣，針對一條點擊曝光記錄，我們就可以將離線構建的訓練集中的特徵，與線上實際使用的特徵關聯起來，對線上和離線模型的 AUC、線上和離線模型的預測分以及特徵的情況進行對比，從而發現一些問題。

舉例來說，在之前的模型迭代過程中，模型離線 AUC 很高，但是線上效果卻並不理想。通過數據驗證，我們首先對比了線上和離線模型 AUC 的情況，發現存在效果不一致的現象，接著對比線上和離線模型的預測分，並找到線上和離線預測分相差最大的 TopK 個樣本，對它們的離線特徵和線上特徵進行對比分析。最後發現是由於數據上報延遲造成了一些線上和離線上下文特徵的不一致，以及線上XGBoost、DMatrix 構建時選的 missingValue 參數有問題，從而導致了線上和離線模型預測分存在偏差。上述問題修復後，線上 UV 點擊率提升了 16.79%，PV 點擊率提升了 19.10%。

通過數據驗證的功能和解決策略，我們快速定位到了問題的原因，加速算法模型迭代開發的過程，提升了線上的應用效果。

2.3.2 模型解釋（ModelExplain）

模型解釋可以打開機器學習模型的黑盒，增加我們對模型決策的信任，幫助理解模型決策，為改進模型提供啟發。關於模型解釋的一些概念，推薦給大家兩篇文章來幫助理解：《Why Should I Trust You Explaining the Predictions of Any Classifier》、《A Unified Approach to Interpreting Model Predictions》。

在實際開發中，我們總是在模型的準確性與模型的可解釋性之間權衡。簡單的模型擁有很好的解釋性，但是準確性不高；而複雜的模型提高模型準確性的同時又犧牲了模型的可解釋性。使用簡單的模型解釋複雜的模型是當前模型解釋的核心方法之一。

目前，我們線上模型排序使用的是 XGBoost 模型。但在 XGBoost 模型中，傳統的基於特徵重要性的模型解釋方法，只能從整體上對每個特徵給出一個重要性的衡量，不支持對模型的局部輸出解釋，或者說單樣本模型輸出解釋。在這樣的背景下，我們的模型解釋模塊使用了新的模型解釋方法 Shap 和 Lime，不僅支持特徵的重要性，也支持模型的局部解釋，使我們可以瞭解到在單個樣本中，某個特徵的某個取值對模型的輸出可以起到何種程度的正向或負向作用。

下面通過一個從實際場景中簡化的示例來介紹模型解釋的核心功能。首先介紹一下幾個特徵的含義：

我們的模型解釋會對單個樣本給出以下的分析：

如圖所示，模型對單個樣本,,的預測值為 0.094930, 0.073473, 0.066176。針對單個樣本的預測，各個特徵值起到多大的正負向作用可以從圖中的特徵條形帶的長度看出，紅色代表正向作用，藍色代表負向作用。這個值是由下表中的 shap_value 值決定的：

其中， logit_output_value = 1.0 / (1 + np.exp(-margin_output_value)),logit_base_value = 1.0 / (1 + np.exp(-margin_base_value)) ，output_value 是 XGBoost 模型輸出值；base_value 是模型期望輸出；近似等於整個訓練集中模型預測值的均值； shap_value 是對該特徵對預測結果起到的正負向作用的一個衡量。

模型預測值logit_output_value，0.094930>0.073473>0.066176，所以排序結果為 I 1 > > I 2 > I 3 ， U 0 - I 1 的預測值為0.094930，特徵 doubleFlow_article_ctr_7_v1= I 1 ctr 起到了 0.062029 的正向作用，使得預測值相較於基值，有增加的趨勢。同理，ui_cosi ne_70=0.894006，起到了 0.188769 的正向作用。

直觀上我們可以看出，內容 7 天點擊率以及用戶-內容相似度越高，模型預測值越高，這也是符合預期的。實際場景中，我們會有更多的特徵。

Shap 模型解釋最核心的功能是支持局部單樣本分析，當然它也支持全局的分析，如特徵重要性，特徵正負向作用，特徵交互等。下圖是對特徵 doubleFlow_article_ctr_7_v1 的分析，可以看出，內容 7 天點擊率小於閾值對模型的預測起負向作用，大於閾值對模型的預測起正向作用。

Part.3

近期規劃

近期，排序算法平臺將繼續提升訓練模型的線上應用效果，並把特徵的實時作為工作重點，快速反映線上的變化。

當前排序算法平臺使用的 XGBoost 模型優點是不需要太多的特徵工程，包括特徵缺失值處理、連續特徵離散化、交叉特徵構建等。但也存在許多不足，包括：

1. 很難處理高緯稀疏特徵

2. 需要加載完整的數據集到內存進行模型的訓練，不支持在線學習算法，很難實現模型的實時更新。

針對這些問題，後期我們將進行 Wide&Deep，DeepFM 等深度模型的建設，如下圖所示：

另外，當前的模型每次都是預測單個 Item 的分數，然後進行排序取一刷的結果，（Learning to rank，pointwise）。後期我們希望可以實現一次給用戶推薦一刷的結果（Learning to rank，listwise），給用戶帶來更加實時、準確的推薦結果。

分享到:

閱讀更多 sandag 的文章

關鍵字: 算法可視化技術排序

商湯提出基於空間修剪的 NAS 算法

Learning To Rank 算法 RankNet

【算法】排序算法之基數排序

【算法】排序算法之桶排序

【算法】排序算法之計數排序

【算法】排序算法之堆排序

數據結構與算法：算法

【算法】位運算與經典八皇后問題

什麼是算力？算法？一文看懂算法學習拓撲圖

查找-hash 算法

爭取能讓大家都能看懂的 DFA 算法

視頻分析與對象跟蹤-CamShift 算法

史上最全GAN綜述2020版：算法、理論及應用

人工智能的靈魂——算法

阿里2020年內部PPT全棧分享：架構、大數據、算法

深入理解 React diff 算法

03.03 史上最全GAN綜述2020版：算法、理論及應用

圖像分割實戰-分水嶺分割方法和GrabCut 算法

03.02 分佈式系統ID的生成方法之UUID、數據庫、算法、Redis、Leaf方案

02.25 《GANs生成式對抗網絡綜述：算法、理論與應用》最新論文

Python 算法 10 -- 廣度優先搜索（BFS）

一文讀懂 MD5 算法

Python 算法 09 -- 散列表

Python 算法 08 -- 快速排序

淺顯介紹“二進制枚舉”算法

分佈式系統ID的生成方法之UUID、數據庫、算法、Redis、Leaf方案

01.20 Python 算法 08 -- 冒泡排序及其優化

01.17 Python 算法 06 --“又愛又恨”的遞歸算法

01.16 Python 算法 05 -- 3+4*5-6=？在棧中的調用

Python 算法 01--二分查找

C++基礎知識-算法

palindrome(迴文)算法

12.07 面試又被問到一致性 Hash 算法？這樣回答秒殺面試官

算法--我的紅黑樹學習過程

用講故事的辦法幫你理解 SMO 算法

漫畫說什麼是 LRU 算法？

算法--平衡二叉樹AVL原理分析以及代碼實現

算法-二叉查找樹BST

10.12 CPK的“另類”算法

「分佈式」看完這個動畫秒懂 Raft 算法

貝葉斯個性化排序(BPR)算法

01.10 路徑規劃之 A* 算法

算法：時間複雜度+二分查找法(Java

算法：加權輪詢算法

算法：分治算法

06.29 「算法」如何判斷鏈表有環

06.19 算法——初級排序算法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"