解密「達達-京東到家」的訂單即時派發技術原理和實踐

本文由達達京東到家Java工程師季炳坤原創分享。

1、前言

達達-京東到家作為優秀的即時配送物流平臺,實現了多渠道的訂單配送,包括外賣平臺的餐飲訂單、新零售的生鮮訂單、知名商戶的優質訂單等。為了提升平臺的用戶粘性,我們需要兼顧商戶和騎士的各自願景:商戶希望訂單能夠準時送達,騎士希望可以高效搶單。那麼在合適的時候提升訂單定製化的曝光率,是及時送物流平臺的核心競爭力之一。

本文將描述“達達-京東到家”的訂單即時派發系統從無到有的系統演進過程,以及方案設計的關鍵要點,希望能為大家在解決相關業務場景上提供一個案例參考。

關於“達達-京東到家”:

解密“達達-京東到家”的訂單即時派發技術原理和實踐

達達-京東到家,是同城速遞信息服務平臺和無界零售即時消費平臺。達達-京東到家創始人兼首席執行官蒯佳祺;

公司旗下,目前已覆蓋全國400 多個主要城市,服務超過120萬商家用戶和超 5000萬個人用戶;

2018年8月,達達-京東到家正式宣佈完成最新一輪5億美元融資,投資方分別為沃爾瑪和京東。

(本文同步發佈於:http://www.52im.net/thread-1928-1-1.html)

2、關於作者

季炳坤:“達達-京東到家”Java工程師,負責“達達-京東到家”的訂單派發、訂單權限、合併訂單等相關技術工作的實現。

3、訂單即時派發架構的演進

在公司發展的初期,我們的外賣訂單從商戶發單之後直接出現在搶單池中,3公里之內的騎士能夠看到訂單,並且從訂單卡片中獲取配送地址、配送時效等關鍵信息。這種暴力的顯示模式,很容易造成騎士挑選有利於自身的訂單進行配送,從而導致部分訂單超時未被配送。這樣的模式,在一定程度上導致了商戶的流失,同時也浪費了騎士的配送時間。

從上面的場景可以看出來,我們系統中缺少一個訂單核心調度者。有一種方案是選擇區域訂單的訂單調度員,由調度員根據騎士的接單情況、配送時間、訂單擠壓等實時情況來進行訂單調度。這種模式,看似可行,但是人力成本投入太高,且比較依賴個人的經驗總結。

核心問題已經出來了:個人的經驗總結會是什麼呢?

1) 騎士正在配送的訂單的數量,是否已經飽和;

2) 騎士的配送習慣是什麼;

3) 某一階段的訂單是否順路,騎士是否可以一起配送;

4) 騎士到店駐留時間的預估;

5) ...

理清核心問題的答案,我們的系統派單便成為了可能。

基於以上的原理,訂單派發模式就可以逐漸從搶單池的訂單顯示演變成系統派單:

解密“達達-京東到家”的訂單即時派發技術原理和實踐

我們將會:

1)記錄商戶發單行為;

2)騎士配送日誌及運行軌跡等信息。

並且經過數據挖掘和數據分析:

1)獲取騎士的畫像;

2)騎士配送時間的預估;

3)騎士到店駐留時間的預估等基礎信息;

4)使用遺傳算法規劃出最優的配送路徑;

5)...

經過上述一系列算法,我們將在騎士池中匹配出最合適的騎士,進而使用長連接(Netty)不間斷的通知到騎士。

隨著達達業務的不斷迭代,訂單配送逐漸孵化出基於大商戶的駐店模式:基於商戶維護一批固定的專屬騎士,訂單隻會在運力不足的時候才會外發到搶單池中,正常情況使用派單模式通知騎士。

解密“達達-京東到家”的訂單即時派發技術原理和實踐

4、訂單派發模型的方案選型

訂單派發可以淺顯的認為是一種信息流的推薦。在訂單進入搶單池之前,我們會根據每個城市的調度情況,先進行輪詢N次的派單。

大概的表現形式如下圖:

解密“達達-京東到家”的訂單即時派發技術原理和實踐

舉例:有筆訂單需要進行推送,在推送過程中,我們暫且假設一直沒有騎士接單,那麼這筆訂單會每間隔N秒便會進行一次普通推薦,然後進入搶單池。

從訂單派發的流程週期上可以看出來,派發模型充斥著大量的延遲任務,只要能解決訂單在什麼時候可以進行派發,那麼整個系統 50% 的功能點就能迎刃而解。

我們先了解一下經典的延遲方案,請繼續往下讀。。。

4.1 方案1:數據庫輪詢

通過一個線程定時的掃描數據庫,獲取到需要派單的訂單信息。

優點:開發簡單,結合quartz即可以滿足分佈式掃描;

缺點:對數據庫服務器壓力大,不利於項目後續發展。

4.2 方案2:JDK的延遲隊列 - DelayQueue

DelayQueue是Delayed元素的一個無界阻塞隊列,只有在延遲期滿時才能從中提取元素。隊列中對象的順序按到期時間進行排序。

優點:開發簡單,效率高,任務觸發時間延遲低;

缺點:服務器重啟後,數據會丟失,要滿足高可用場景,需要hook線程二次開發;宕機的擔憂;如果數據量暴增,也會引起OOM的情況產生。

4.3 方案3:時間輪 - TimingWheel

時間輪的結構原理很簡單,它是一個存儲定時任務的環形隊列,底層是由數組實現,而數組中的每個元素都可以存放一個定時任務列表。列表中的每一項都表示一個事件操作單元,當時間指針指向對應的時間格的時候,該列表中的所有任務都會被執行。 時間輪由多個時間格組成,每個時間格代表著當前實踐論的跨度,用tickMs代表;時間輪的個數是固定的,用wheelSize代表。

整個時間輪的跨度用interval代表,那麼指針轉了一圈的時間為:

interval = tickMs * wheelSize

如果tickMs=1ms,wheelSize=20,那麼便能計算出此時的時間是以20ms為一轉動週期,時間指針(currentTime)指向wheelSize=0的數據槽,此時有5ms延遲的任務插入了wheelSize=5的時間格。隨著時間的不斷推移,指針currentTime不斷向前推進,過了5ms之後,當到達時間格5時,就需要將時間格5所對應的任務做相應的到期操作。

如果此時有個定時為180ms的任務該如何處理?很直觀的思路是直接擴充wheelSize?這樣會導致wheelSize的擴充會隨著業務的發展而不斷擴張,這樣會使時間輪佔用很大的內存空間,導致效率低下,因此便衍生出了層級時間輪的數據結構。

180ms的任務會升級到第二層時間輪中,最終被插入到第二層時間輪中時間格#8所對應的TimerTaskList中。如果此時又有一個定時為600ms的任務,那麼顯然第二層時間輪也無法滿足條件,所以又升級到第三層時間輪中,最終被插入到第三層時間輪中時間格#1的TimerTaskList中。注意到在到期時間在[400ms,800ms)區間的多個任務(比如446ms、455ms以及473ms的定時任務)都會被放入到第三層時間輪的時間格#1中,時間格#1對應的TimerTaskList的超時時間為400ms。

隨著時間輪的轉動,當TimerTaskList到期時,原本定時為450ms的任務還剩下50ms的時間,還不能執行這個任務的到期操作。便會有個時間輪降級的操作,會將這個剩餘時間50ms的定時任務重新提交到下一層級的時間輪中,所以該任務被放到第二層時間輪到期時間為 [40ms,60ms) 的時間格中。再經歷了40ms之後,此時這個任務又被觸發到,不過還剩餘10ms,還是不能立即執行到期操作。所以還要再一次的降級,此任務會被添加到第一層時間輪到期時間為[10ms,11ms)的時間格中,之後再經歷10ms後,此任務真正到期,最終執行相應的到期操作。

優點:效率高,可靠性高(Netty,Kafka,Akka均有使用),便於開發;

缺點:數據存儲在內存中,需要自己實現持久化的方案來實現高可用。

5、訂單派發方案的具體實現

結合了上述的三種方案,最後決定使用redis作為數據存儲,使用timingWhell作為時間的推動者。這樣便可以將定時任務的存儲和時間推動進行解耦,依賴Redis的AOF機制,也不用過於擔心訂單數據的丟失。

kafka中為了處理成千上萬的延時任務選擇了多層時間輪的設計,我們從業務角度和開發難度上做了取捨,只選擇設計單層的時間輪便可以滿足需求。

解密“達達-京東到家”的訂單即時派發技術原理和實踐

1)時間格和緩存的映射維護:

假設當前時間currentTime為11:49:50,訂單派發時間dispatchTime為11:49:57,那麼時間輪的時間格#7中會設置一個哨兵節點(作為是否有數據存儲在redis的依據 )用來表示該時間段是否會時間事件觸發,同時會將這份數據放入到緩存中(key=dispatchTime+ip), 當7秒過後,觸發了該時間段的數據,便會從redis中獲取數據,異步執行相應的業務邏輯。最後,防止由於重啟等一些操作導致數據的丟失,哨兵節點的維護也會在緩存中維護一份數據,在重啟的時候重新讀取。

2)緩存的key統一加上IP標識:

由於我們的時間調度器是依附於自身系統的,通過將緩存的key統一加上IP的標識,這樣就可以保證各臺服務器消費屬於自身的數據,從而防止分佈式環境下的併發問題,也可以減輕遍歷整個列表帶來的時間損耗(時間複雜度為O(N))。

3)使用異步線程處理時間格中對應的數據:

使用異步線程,是考慮到如果上一個節點發生異常或者超時等情況,會延誤下一秒的操作,如果使用異常可以改善調度的即時性問題。

我們在設計系統的時候,系統的完善度和業務的滿足度是互相關聯影響的,單從上述的設計看,是會有些問題的,比如使用IP作為緩存的key,如果集群發生變更便會導致數據不會被消費;使用線程池異步處理也有概率導致數據不會被消費。這些不會被消費的數據會進入到搶單池中。從派單場景的需求來看,這些場景是可以被接受的,當然了,我們系統會有腳本來進行定期的篩選,將那些進入搶單池的訂單進行再次派單。

* 思考:為什麼不使用ScheduledThreadPoolExecutor來定時輪詢redis?

原因是即便這樣可以完成業務上的需求,獲取定時觸發的任務,但是帶來的空查詢不但會拉高服務的CPU,redis的QPS也會被拉高,可能會導致redis的慢查詢會顯著增多。

6、結語

我們在完成一個功能的時候,往往需要一些可視化的數據來確定業務發展的正確性。因此我們在開發的時候,也相應的記錄了一些訂單與騎士的交互動作。從每天的報表數據可以看出來,90% 以上的訂單是通過派單發出並且被騎士認可接單。

訂單派發的模式是提升訂單曝光率有效的技術手段,我們一直結合大數據、人工智能等技術手段希望能更好的做好訂單派發,能提供更加多元化的功能,將達達打造成更加一流的配送平臺。

附錄:更多相關技術文章

《偽即時通訊:分享滴滴出行iOS客戶端的演進過程》

《iOS的推送服務APNs詳解:設計思路、技術原理及缺陷等》

《信鴿團隊原創:一起走過 iOS10 上消息推送(APNS)的坑》

《Android端消息推送總結:實現原理、心跳保活、遇到的問題等》

《掃盲貼:認識MQTT通信協議》

《一個基於MQTT通信協議的完整Android推送Demo》

《IBM技術經理訪談:MQTT協議的制定歷程、發展現狀等》

《求教android消息推送:GCM、XMPP、MQTT三種方案的優劣》

《移動端實時消息推送技術淺析》

《掃盲貼:淺談iOS和Android後臺實時消息推送的原理和區別》

《絕對乾貨:基於Netty實現海量接入的推送服務技術要點》

《移動端IM實踐:谷歌消息推送服務(GCM)研究(來自微信)》

《為何微信、QQ這樣的IM工具不使用GCM服務推送消息?》

《極光推送系統大規模高併發架構的技術實踐分享》

《從HTTP到MQTT:一個基於位置服務的APP數據通信實踐概述》

《魅族2500萬長連接的實時消息推送架構的技術實踐分享》

《專訪魅族架構師:海量長連接的實時消息推送系統的心得體會》

《深入的聊聊Android消息推送這件小事》

《基於WebSocket實現Hybrid移動應用的消息推送實踐(含代碼示例)》

《一個基於長連接的安全可擴展的訂閱/推送服務實現思路》

《實踐分享:如何構建一套高可用的移動端消息推送系統?》

《Go語言構建千萬級在線的高併發消息推送系統實踐(來自360公司)》

《騰訊信鴿技術分享:百億級實時消息推送的實戰經驗》

《百萬在線的美拍直播彈幕系統的實時推送技術實踐之路》

《京東京麥商家開放平臺的消息推送架構演進之路》

《瞭解iOS消息推送一文就夠:史上最全iOS Push技術詳解》

《基於APNs最新HTTP/2接口實現iOS的高性能消息推送(服務端篇)》

《解密“達達-京東到家”的訂單即時派發技術原理和實踐》

>> 更多同類文章 ……

(本文同步發佈於:http://www.52im.net/thread-1928-1-1.html)


分享到:


相關文章: