餓了麼大數據計算引擎實踐與應用

2018-05-30 20:13:43 加米穀大數據

本文主要介紹餓了麼大數據團隊如何通過對計算引擎入口的統一，降低用戶接入門檻。如何讓用戶自助分析任務異常及失敗原因，以及如何從集群產生的任務數據本身監控集群計算/存儲資源消耗，監控集群狀況，監控異常任務等。

引擎入口統

目前在餓了麼對外提供的查詢引擎主要有Presto、Hive和Spark，其中Spark又有SparkThrift Server和Spark SQL兩種模式，並且Kylin也在穩步試用中，Druid也正在調研中。各種計算引擎都有自身的優缺點，適用的計算場景各不相同。

從管理角度來說，大數據集群的入口太多，將難以實現統一管理，難以實現負載均衡、權限控制，難以掌控集群整體對外服務能力。並且當有新的計算需求需要接入，我們還需要為其部署對應的客戶端環境。

從用戶角度來說，普通用戶對此沒有較強的辨識能力，學習成本會比較高。並且當用戶可以自主選擇引擎執行任務時，會優先選擇所謂的最快引擎，而這勢必會造成引擎阻塞，或者將完全不適合的任務提交到某引擎，從而降低任務成功率。

用戶使用多種計算引擎

1、功能模塊

針對這種情況，餓了麼大數據團隊開發了Dispatcher，該組件的主要功能如下圖所示：

Dispatcher功能模塊

用戶所有任務全部通過Dispatcher提交，在Dispatcher中我們可以做到統一的鑑權，統一的任務執行情況跟蹤。還可以做到執行引擎的自動路由，各執行引擎負載控制，以及通過引擎降級提高任務運行成功率。

2、邏輯架構

Dispatcher的邏輯架構如下圖所示：

Dispatcher系統邏輯架構

目前用戶可以通過JDBC模式調用Dispatcher服務，或者直接以Driver模式運行Dispatcher。Dispatcher接收到查詢請求後，將會統一進行鑑權、引擎路由等操作將查詢提交到對應引擎。另外，Dispatcher還有SQL轉換模塊，當發生從Presto引擎降級到Spark/Hive引擎時，將會通過該模塊自動將Presto SQL轉換成HiveQL。

通過Dispatcher對查詢入口的統一，帶來的好處如下：

用戶接入門檻低，無需再去學習各引擎使用方法和優缺點，無需手動選擇執行引擎；
部署成本低，客戶端可通過JDBC方式快速接入；
統一的鑑權和監控；
降級模塊提高任務成功率；
各引擎負載均衡；
引擎可擴展。

引擎可擴展主要是指當後續接入Kylin、Druid或者其他更多查詢引擎時，可以做到用戶無感知。由於收集到了提交到集群的所有查詢，針對每一個已有查詢計劃，我們可以獲得熱度數據，知道在全部查詢中哪些表被使用次數最多，哪些表經常被關聯查詢，哪些字段經常被聚合查詢等，當後續接入Kylin時，可以通過這些數據快速建立或優化Cube。

3、SQL畫像

在Dispatcher中最核心的是SQL畫像模塊，基本流程如下圖：

SQL路由模塊

查詢提交後，通過連接HiveServer對查詢計劃進行解析，可以獲取當前查詢的所有元數據信息，比如：

讀入數據量

讀入表/分區數
各類Join次數
關聯字段多少
聚合複雜度
過濾條件
……

上述元數據信息基本上可以對每一個查詢進行精準的描述，每一個查詢可以通過這些維度的統計信息調度到不同引擎中。

Hive對SQL進行解析並進行邏輯執行計劃優化後，將會得到優化後的Operator Tree，通過explain命令可以查看。SQL畫像數據可以從這個結果收集各種不同類型的Operator操作，如下圖所示：

SQL解析示例

從直觀的理解上我們知道，讀入數據量對於引擎的選擇是很重要的。比如當讀入少量數據時，Presto執行性能最好，讀入大量數據時Hive最穩定，而當讀入中等數據量時，可以由Spark來執行。

各類計算引擎數據量-執行時間分佈

在初始階段，還可以通過讀入數據量，結合Join複雜度，聚合複雜度等因素在各種計算引擎上進行測試，採用基於規則的辦法進行路由。執行過程中記錄好每一次查詢的SQL畫像數據，執行引擎，降級鏈路等數據。基於這些畫像數據，後續可以採用比如決策樹，Logistic迴歸，SVM等分類算法實現引擎的智能路由，目前餓了麼大數據團隊已經開始了這方面的嘗試。

目前在餓了麼的應用中，由Dispatcher統一調度的Ad Hoc查詢，由於增加了預檢查環節，以及失敗降級環節，每天總體成功率為99.95%以上，整體PT90值為300秒左右。目前Presto承擔了Ad Hoc查詢的50%流量，SparkServer模式承擔了40%流量。

充分利用集群本身數據

餓了麼大數據集群每天運行的Spark&MR任務25W+，這些數據詳細記錄了每一個Mapper/Reducer或者Spark的Task的運行情況，如果能夠充分利用，將會產生巨大的價值。充分利用集群本身數據，數據驅動集群建設。這些數據不僅可以有助於集群管理人員監控集群本身的計算資源、存儲資源消耗，任務性能分析，主機運行狀態。還可以幫助用戶自助分析任務運行失敗原因，任務運行性能分析等。

餓了麼大數據團隊開發的Grace項目就是在這方面的一個示例。

1、Grace使用場景

對集群任務運行狀況詳細數據沒有明確認識的話，很容易當出現問題時陷入困境，從監控看到集群異常後將無法繼續進一步快速定位問題。

當經常有用戶找你說，我的任務為什麼跑失敗了？我的任務為什麼跑的這麼慢？我的任務能調一下優先級麼？不要跟我說看日誌，我看不懂。我想大家內心都是崩潰的。

當監控發出NameNode異常抖動，網絡飈高，block創建增加，block創建延時增大等告警時，應該如何快速定位集群運行的異常任務？

當監控發出集群中Pending的任務太多時，用戶反饋任務大面積延遲時，如何快速找到問題根本原因？

當用戶申請計算資源時，到底應該給他們分配多少資源？當用戶申請提高任務優先級時如何用數據說話，明確優先級到底應該調到多少？當用戶只管上線不管下線任務時，我們如何定位哪些任務是不再需要的？

還有，如何通過實時展示各BU計算資源消耗，指定BU中各用戶計算資源消耗，佔BU資源比例。以及如何從歷史數據中分析各BU任務數，資源使用比例，BU內部各用戶的資源消耗，各任務的資源消耗等。

以下示例展示一些Grace產出數據圖表。有關BU、用戶、任務級別的數據不方便展示。

1）監控隊列

從下圖可以方便的看到各隊列最大最小資源，當前已用資源，當前運行任務數，Pending任務數，以及資源使用比例等，還可以看到這些數據的歷史趨勢。

各隊列任務情況

隊列資源使用趨勢

2）任務監控

可以查看指定隊列中運行中任務的任務類型，開始時間，運行時長，消耗當前隊列資源比例，以及消耗當前BU資源比例等。可快速定位計算資源消耗多並且運行時間長的任務，快速找到隊列阻塞原因。

指定隊列任務情況

3）監控主機失敗率

可以監控集群所有主機上的Task執行失敗率。已有監控體系會對主機的CPU，磁盤，內存，網絡等硬件狀況進行監控。這些硬件故障最直觀的表現就是分配在這些有問題的主機上的任務執行緩慢或者執行失敗。運行中的任務是最靈敏的反應，一旦檢測到某主機失敗率過高，可觸發快速自動下線保障業務正常執行。後續可以結合硬件監控定位主機異常原因。

主機失敗率監控

4）任務性能分析

用戶可自助進行任務性能分析。

任務性能分析

並且可以根據異常項根據以下建議自助調整。

任務自助優化方案

5）任務失敗原因分析

對於失敗的任務，用戶也可以按照以下方法快速從調度系統查看失敗原因，以及對應的解決辦法，餓了麼大數據團隊會定期收集各種典型報錯信息，更新維護自助分析知識庫。

失敗原因自助分析

除此之外，我們還可以實時監控每個任務的計算資源消耗GB Hours，總的讀入寫出數據量，Shuffle數據量等。以及運行中任務的HDFS讀寫數據量，HDFS操作數等。

當出現集群計算資源不足時，可快速定位消耗計算資源多的任務。當監控出現HDFS集群抖動，讀寫超時等異常狀況時，也可通過這些數據快速定位到異常任務。

基於這些數據還可以根據各隊列任務量，任務運行資源消耗時間段分佈，合理優化各隊列資源分配比例。

根據這些任務運行狀況數據建立任務畫像，監控任務資源消耗趨勢，定位任務是否異常。再結合任務產出數據的訪問熱度，還可以反饋給調度系統動態調整任務優先級等。

2、Grace架構

上述示例中使用到的數據都是通過Grace收集的。Grace是餓了麼大數據團隊開發的應用，主要用於監控分析線上MR/Spark任務運行數據，監控運行中隊列及任務明細及彙總數據。邏輯架構如下：

Grace邏輯架構

Grace是通過Spark Streaming實現的，通過消費Kafka中存儲的已完成MR任務的jhist文件或Spark任務的eventlog路徑，從HDFS對應位置獲取任務運行歷史數據，解析後得到MR/Spark任務的明細數據。再根據這些數據進行一定的聚合分析，得到任務級別，Job級別，Stage級別的彙總信息。最後通過定製化的Dr-Elephant系統對任務明細數據通過啟發式算法進行分析，從而給用戶一些直觀化的優化提示。

對於Dr-Elephant，我們也做了定製化的變動，比如將其作為Grace體系的一個組件打包依賴。從單機部署服務的模式變成了分佈式實時解析模式。將其數據源切換為Grace解析到的任務明細數據。增加每個任務的ActionId跟蹤鏈路信息，優化Spark任務解析邏輯，增加新的啟發式算法和新的監控指標等。

總結

隨著大數據生態體系越來越完善，越來越多背景不同的用戶都將加入該生態圈，我們如何降低用戶的進入門檻，方便用戶快速便捷地使用大數據資源，也是需要考慮的問題。

大數據集群中運行的絕大部分任務都是業務相關，但是隨著集群規模越來越大，任務規模越來越大，集群本身產生的數據也是不容忽視的。這部分數據才是真正反映集群使用詳細情況的，我們需要考慮如何收集使用這部分數據，從數據角度來衡量、觀察我們的集群和任務。

僅僅關注於集群整體部署、性能、穩定等方面是不夠的，如何提高用戶體驗，充分挖掘集群本身數據，用數據促進大數據集群的建設，是本次分享的主題。

分享到:

閱讀更多 加米穀大數據 的文章

關鍵字: Spark HDFS Hive

「大數據」（一百四十八）常用算法及數據結構之Stacks

「大數據」（一百三十六）常見算法及數據結構之Bitmap樹

大數據：瞭解Hadoop生態中Hive和HBase兄弟倆的區別

「大數據」（一百二十七）Python基礎之字符串：字符串方法

「大數據」（一百二十五）Python基礎之元組：tuple函數

「大數據」（一百二十三）Python基礎之列表：列表方法

「大數據」（一百二十一）Python基礎之序列：成員資格

「大數據」（一百二十）Python基礎之序列：乘法

「大數據」（一百一十九）Python基礎之序列：序列相加

「大數據」（一百一十七）Python基礎之字符串

「大數據」（一百一十六）Python基礎之註釋

大數據，Hadoop生態詳解

「大數據」（一百一十五）Python基礎之常用魔法函數

「大數據」（一百一十四）Python基礎知識之函數

「大數據」（一百一十三）Python基礎知識之獲取用戶輸入

「大數據」（一百一十二）Python基礎之數字和表達式

「大數據」（一百零一）常用分區工具

「大數據」（一百）磁盤分區類型及各自作用

「大數據」（九十七）Scala之文件操作

「大數據」（九十二）Scala之輔助構造器

「大數據」（八十八）Scala之數組

「大數據」（八十七）Scala之控制器和函數

「大數據」（八十六）Scala基礎

「大數據」（八十五）Spark之MLlib體驗

「大數據」（八十三）Spark之Streaming實時流

「大數據」（八十二）Spark之SparkSQL應用案例

「大數據」（八十一）Spark之SparkSQL運行架構

03.08 「大數據」（八十一）Spark之SparkSQL運行架構

「大數據」（八十）Spark之Shuffle機制

「大數據」（七十九）Spark之Lineage機制

「大數據」（七十八）Spark之通信模塊

03.03 「大數據」（七十六）Spark之工作機制

02.27 大數據：瞭解Hive和HBase的區別

02.26 「大數據」（七十）Spark之生態系統

大數據 Hadoop（中）筆記大全收藏加關注

大數據 Linux筆記大全

大數據：Yarn應用程序提交流程

大數據、Hadoop核心框架和MapReduce原理

大數據：清洗流程以及入門實例

大數據：數據清洗的定義以及數據清洗的方法

大數據、雲計算系統頂級架構師課程學習路線圖

大數據:Hbase的知識大全都在這裡

大數據：基於zookeeper協調的分布式日誌系統Kafka的文件存儲機制

大數據、機器學習和深度學習類命令行工具

大數據，Java丶Python丶Web前端等300G的學習資料無償分享！

大數據——MapReduce

大數據-hadoop生態系統及版本演化

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"