蘑菇街，我的買手街！懂得其程序背後推薦原理，買到更好的東西

碼農三哥

2019-11-14 06:21:00

推薦一直是電商平臺的重要流量入口。以往在電商平臺上，推薦的場景更多的覆蓋在交易的各個環節，比如詳情頁、購物車、訂單及支付等。近年來推薦發展逐漸的多樣化，場景上逐漸覆蓋到各流量入口，推薦的實體也擴展到活動、類目、運營位等。

蘑菇街作為一家社會化導購電商平臺，近1年推薦業務發展也非常快。早期我們更多進行商品的推薦促進成交，在16年321和雙11大促活動中引入了個性化猜你喜歡，帶來非常大的效果提升，接下去推薦作為一種常規的資源位效率提升手段，滲透到更多的場景中。包括導購類目、專輯甚至搜索提示詞都是通過推薦系統來支持。目前接入的推薦場景已經有一百多個。

本文將介紹蘑菇街的推薦系統工程實現，主要介紹在線推薦服務、埋點及效果統計。

系統架構

整個推薦系統可以分為在線服務層、近實時計算層、離線計算層3大塊。

在線服務：包含abtest實驗、結果集召回、點擊率預估、字段補全、埋點幾部分。近實時計算：根據用戶實時行為，提取用戶實時特徵、在線模型訓練。離線計算：根據用戶歷史行為，進行相關性訓練、商品初排分、離線特徵提取等。

在線推薦服務

我們將系統分成推薦投放系統prism、精排系統kepler、推薦引擎、用戶特徵服務、abtest、字段補全服務。

prism：推薦統一接口，負責召回規則、abtest、埋點、字段補全。kepler：點擊率預估。各打散置頂等業務層排序。用戶特徵：離線和實時的用戶特徵存儲。推薦引擎：離線算法訓練的結果集存儲。字段補全：商品等正排信息補全。比如價格、標題等。

推薦投放prism

作為通用化的推薦平臺，接入100+個推薦場景，可以分成20+類推薦規則。並且推薦的實體也包含商品、店鋪、社會化內容、類目詞等等。我們希望提供一個推薦平臺，讓算法工程師自助實現推薦需求。

投放框架層的功能如下：
1. 提供統一的推薦接口。
2. 各個場景的召回策略規則。可熱部署。
3. 提供投放sdk，提供通用數據源接口、工具類。方便算法推薦規則編寫。
4. 提供測試框架
5. 算法實驗以及埋點統計
6. 推薦工作臺

推薦投放整體架構圖

主要包含投放框架、推薦策略（腳本）、投放sdk、測試框架、工作臺幾部分。以下分別介紹。

推薦實體關係

投放框架的實體模型分為場景、實驗、腳本、配置。腳本里面承載了具體的推薦邏輯，為了腳本複用，增加了對腳本的配置。

精排系統kepler

精排系統的職責是對候選集進行排序，其中核心點在於模型和特徵。理想情況下系統儘可能支持多的模型和特徵，但是在線計算需要較小的時延，這就要求我們要平衡效果和性能。

模型一般有線性和線性，目前我們支持LR和GBDT。模型一般離線更新，針對雙11大促等場景我們也會使用在線學習實時更新。

線性模型公式：

x是特徵，θ是權重。一個模型通常有幾十維特徵，這些特徵的計算和存儲就成為系統最大的挑戰。以下是我們的幾點應對方式：
1. 控制候選集數量在千級別。候選集一大整體計算就比較慢，rt也會上升。
2. 實體（商品）特徵本地存儲，每次需要排序1000個商品，本地存儲可以極大緩解網絡壓力。同樣我們內嵌了推薦引擎的存儲模塊，擁有內存的速度，又解決持久化的問題。
3. 針對內存瓶頸，我們將用戶相關特徵遷移到遠程，考慮每次查詢只會查幾次用戶特徵數據，開銷不大。
4. 並行計算，複雜模型下，組裝特徵和計算還是比較費時，為了提升rt我們進行並行計算，充分利用cpu的資源。在系統容量不變的情況下提升rt。

系統架構圖

整個精排服務同時為搜索排序（topn）、推薦（prism）提供排序服務。輸入商品列表，輸出排序後的商品列表。整個鏈路包含當前模型參數獲取、特徵數據準備、特徵預處理及打分、預測、業務層排序、業務打散等環節。

keplerService是接口層，服務會按照業務分實例部署。每個實例的內存狀態也不同。應對一塊業務，比如推薦、搜索。接口層除了需要傳需要排序的商品列表，還需要傳模型code。模型配置獲取，排序後臺會配置好每個模型的算法、特徵、權重等信息。同步到配置服務器（metabase）下發到kepler系統。特徵數據準備，針對當前算法預先加載特徵數據，特徵數據較多，統一獲取特徵可以批量操作節約性能。特徵部分存在本地，用戶數據需要訪問遠程服務。rerank包括特徵預處理、打分、預測。這部分可以多線程並行執行。減少時延。業務排序，只要執行業務置頂、加權等邏輯，業務打散，針對一個結果集可能太同質，會進行類目、店鋪等打散。

數據流

推薦算法固然非常重要，但是缺少穩定可靠的數據流，算法的效果追蹤就沒有說服力。早期蘑菇街的埋點耦合到各個業務層，並且嚴重依賴url，一方面維護工作量很大，另一方面系統重構，產品迭代整個打點經常發生丟失，我們在15年重建了abtest和數據流體系，經歷1年左右時間已經徹底解決頑疾，並且為算法業務提供了很大的擴展性。

我們推行一套打點規範，命名為acm。acm中包含了我們推薦的位置信息、實驗信息、算法自定義埋點信息等。每個推薦商品都會有自己的acm標識。推薦接口端統一生成並且和終端約定好統一的埋點格式。

acm讓我們徹底拋棄以往對url的依賴，同時自定義信息能夠幫助算法實現各種分析需求，比如分析各召回策略的曝光、點擊、交易佔比。也為在線特徵分析以及強化學習提供了數據源。

以搜索排序場景舉例：

在一個常規的算法實驗過程中，流程如下：
1. 算法在abtest控制檯進行實驗切分。
2. 實驗信息會通過zk推送給推薦投放系統。
3. 投放端進行實驗分流，執行召回排序邏輯，為每個商品進行埋點，透出結果集。
4. 終端統一埋點，發送給日誌收集服務器。
5. acm採集系統將收集到acm日誌流，執行清洗反作弊等邏輯。輸出實時消息流，並且定時保存到離線hive表中。
6. acm通用聚合系統將多維度聚合資源位、實驗等維度的統計信息，持久化到es、db。
7. 可視化組件可以自定義從db中拿到多維度數據，進行實時、離線數據的監控分析。

其他

在線推薦還有一個字段補全服務，採用redis存儲，存儲的數據用protobuf進行序列化。

總結

系統歷時1年半多的發展，基本實現我們平臺化的目標。算法同學可以專注在算法效果提升，工程同學可以專注框架升級。

最早我們只有一個推薦引擎做離線推薦，隨著業務接入越來越多，場景定製的召回策略凸顯出來，我們開始搭建了推薦投放系統。算法為了提升效果，實時個性化就是基本需求，於是我們搭建了用戶特徵服務。緊接著就是精排系統進行點擊率預估。基本上主流算法功能都能夠實現。

數據流系統是我們一開始就規劃的，我們在做推薦的同時也負責搜索服務，一直吃數據質量問題的苦頭。一開始我們想解決abtest跟效果追蹤的問題，隨著項目進行，我們發現順帶也解決了算法策略數據分析的問題，打下了很好的基礎。

在16年中，蘑菇街和美麗說技術體系合併，並且蘑菇街推薦在16年321大促上表現優異，推薦場景發展迅速。系統一下子接入了很多業務方，支持的算法也包含了北京的團隊。此時我們就考慮進行平臺化，將算法操作自助化，不依賴工程的日常發佈。之後，我們將算法腳本發佈的權利交於算法時，考慮到系統穩定性，我們開始做了一系列的保障工作。

關於後續，我們第一優先的還是優化細節，降低使用成本，提升系統效率。實實在在的讓各方受益。其次會在算法的效果上進行嘗試，比如召回策略上引入強化學習，排序特徵擴維度等。當然存儲是最大的挑戰，當前單機部署能夠滿足現有業務，我們也進行按照業務算法做分組部署，在業務擴大10倍的情況下，單個業務算法結果可能就會突破單機限制，存儲架構就需要升級，支持分片。

碼農三哥，一名普通程序員，會點java軟件開發，對AI人工智能有點興趣，後續會每日分享些關於互聯網技術方面的文章，感興趣的朋友可以關注我，相信一定會有所收穫。

想轉型或剛步入程序員Java開發的朋友，有問題可以留言或私信我！

小紅書迴應原蘑菇街直播負責人加盟：消息不實

導購電商十五年：從“蘑菇街”到“值得買”的蛻變之路

H5頁面喚起微信各種功能

蘑菇街“321直播購物節”銷售破新高：直播電商行業主要環節分析

“蘑菇街”2019年度消費投訴數據出爐獲3次“謹慎下單”評級

蘑菇街的商品圖如何做到批量下載並分類保存？

「戰"疫"」貝店雲集蘑菇街有贊社交電商平臺商家扶持政策盤點

蘑菇街：針對各大品牌商家推出七大優惠舉措

01.06 蘑菇街：2019年直播帶貨增長率超100%，今年構建代播服務商體系

蘑菇街：一個時代的翹楚，5年攀高峰、3年跌谷底

11.28 你帶貨，我帶你！拼多多、蘑菇街、淘直播平臺選品會

蘑菇街：堅守初心，賦能主播開啟電商直播新時代

小程序也能成就電商新的形式和希望

雙十一來臨，惠民優品為商家打造具有競爭力店鋪

對比丨小程序與淘寶，模式、客流、成本三方面對比

2019年中國社交電商行業發展分析（上中）

蘑菇街：頂不住了！3年虧了11億，不該拒絕阿里

兩年前報價550萬元，這枚單詞域名被團購終端啟用！

為什麼說插件是小程序下一步風口！

為什麼你的小程序沒有流量，是因為少做了這些事

04.02 傳統企業如何快速開發一個爆款小程序

騰訊投資再得一分 “蘑菇街“上市掀起互聯網年末小高潮

所有人都應該思考為什麼你覺得小程序沒用，反而它卻一直很火？

蘑菇街，我的買手街！懂得其程序背後推薦原理，買到更好的東西

推薦流程

系統架構

在線推薦服務

推薦策略

推薦存儲

精排系統kepler

數據流

推薦流程

系統架構

在線推薦服務

推薦策略

推薦存儲

精排系統kepler

數據流

相關文章:

小紅書迴應原蘑菇街直播負責人加盟：消息不實

導購電商十五年：從“蘑菇街”到“值得買”的蛻變之路

H5頁面喚起微信各種功能

蘑菇街“321直播購物節”銷售破新高：直播電商行業主要環節分析

“蘑菇街”2019年度消費投訴數據出爐 獲3次“謹慎下單”評級

蘑菇街的商品圖如何做到批量下載並分類保存？

「戰"疫"」貝店 雲集 蘑菇街 有贊社交電商平臺商家扶持政策盤點

蘑菇街：針對各大品牌商家推出七大優惠舉措

01.06 蘑菇街：2019年直播帶貨增長率超100%，今年構建代播服務商體系

蘑菇街：一個時代的翹楚，5年攀高峰、3年跌谷底

11.28 你帶貨，我帶你！拼多多、蘑菇街、淘直播平臺選品會

蘑菇街：堅守初心，賦能主播開啟電商直播新時代

小程序也能成就電商新的形式和希望

雙十一來臨，惠民優品為商家打造具有競爭力店鋪

對比丨小程序與淘寶，模式、客流、成本三方面對比

2019年中國社交電商行業發展分析（上中）

蘑菇街：頂不住了！3年虧了11億，不該拒絕阿里

兩年前報價550萬元，這枚單詞域名被團購終端啟用！

為什麼說插件是小程序下一步風口！

為什麼你的小程序沒有流量，是因為少做了這些事

04.02 傳統企業如何快速開發一個爆款小程序

騰訊投資再得一分 “蘑菇街“上市掀起互聯網年末小高潮

所有人都應該思考 為什麼你覺得小程序沒用，反而它卻一直很火？

微信小程序如何變現

蘑菇街、茵曼、享物說在小程序上的數據統計是這樣的

蘑菇街9月大促內部活動優惠券商品推薦

颶風來了別關門，飛起來有驚喜！

小程序就要變天了！純電商或純線下已經行不通，你還不快跟上！

教你怎麼玩轉，小程序+電商

小程序：新一波電商浪潮來襲

08.27 僅靠小程序8個月融資1.2億美金，它有哪些可複製的冷啟動及裂變玩法！

拼多多、小紅書、蘑菇街，社交電商三分天下格局即將形成？

讓我們來了解下小程序！

當下，大霓雲小程序的代理商紅利來了！你還等什麼？

電商如何藉助小程序構建“專屬流量池”，實現高效轉化變現？

2018小程序火了，早入駐小程序的商家賺大了

他們的成功告訴我們，微信小程序將會是未來的趨勢！

小程序對商家來說到底有沒有用？｜有人視若珍寶，有人棄之如敝屣

今非昔比的淘寶客

06.22 盤石、蘑菇街、執御……杭州電商代表齊聚一堂談了點啥？

06.21 支付寶、蘑菇街、滴滴關於億級紅包、電商算法、移動端架構文章！

06.14 拼團小程序再添悍將 京東拼購力抵拼多多

06.11 蘑菇街告訴你怎麼在微信用直播賣貨？

2018年社交電商排行榜（TOP30）

06.05 PV千萬的小程序都是怎麼玩的？我們總結了一個公式

05.31 小程序這門生意，流量從哪裡來？

拼多多黃崢、貝貝網張良倫、蘑菇街陳琪三位電商小巨頭的對話有感

美麗說、蘑菇街、淘世界合併

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

“蘑菇街”2019年度消費投訴數據出爐獲3次“謹慎下單”評級

「戰"疫"」貝店雲集蘑菇街有贊社交電商平臺商家扶持政策盤點

所有人都應該思考為什麼你覺得小程序沒用，反而它卻一直很火？

06.14 拼團小程序再添悍將京東拼購力抵拼多多

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！