DataMan:美團旅行數據質量監管平臺實踐

背景

數據,已經成為互聯網企業非常依賴的新型重要資產。數據質量的好壞直接關係到信息的精準度,也影響到企業的生存和競爭力。Michael Hammer(《Reengineering the Corporation》一書的作者)曾說過,看起來不起眼的數據質量問題,實際上是拆散業務流程的重要標誌。 數據質量管理是測度、提高和驗證質量,以及整合組織數據的方法等一套處理準則,而體量大、速度快和多樣性的特點,決定了大數據質量所需的處理,有別於傳統信息治理計劃的質量管理方式。

本文基於美團點評大數據平臺,通過對數據流轉過程中各階段數據質量檢測結果的採集分析、規則引擎、評估反饋和再監測的閉環管理過程出發,從面臨挑戰、建設思路、技術方案、呈現效果及總結等方面,介紹美團平臺酒旅事業群(以下簡稱美旅)數據質量監管平臺DataMan的搭建思路和建設實踐。

挑戰

美旅數據中心日均處理的離線和實時作業高達數萬量級, 如何更加合理、高效的監控每類作業的運行狀態,並將原本分散、孤島式的監控日誌信息通過規則引擎集中共享、關聯、處理;洞察關鍵信息,形成事前預判、事中監控、事後跟蹤的質量管理閉環流程;沉澱故障問題,搭建解決方案的知識庫體系。在數據質量監管平臺的規劃建設中,面臨如下挑戰:

  • 缺乏統一監控視圖,離線和實時作業監控分散,影響性、關聯性不足。

  • 數據質量的衡量標準缺失,數據校驗滯後,數據口徑不統一。

  • 問題故障處理流程未閉環,“點”式解決現象常在;缺乏統一歸檔,沒有形成體系的知識庫。

  • 數據模型質量監控缺失,模型重複,基礎模型與應用模型的關聯度不足,形成信息孤島。

  • 數據存儲資源增長過快,不能監控細粒度資源內容。

DataMan質量監管平臺研發正基於此,以下為具體建設方案。

解決思路

整體框架

構建美旅大數據質量監控平臺,從可實踐運用的視角出發,整合平臺資源、技術流程核心要點,重點著力平臺支持、技術控制、流程制度、知識體系形成等方向建設,確保質量監控平臺敏捷推進落地的可行性。數據質量監控平臺整體框架如圖1所示:

DataMan:美团旅行数据质量监管平台实践

圖1 質量監控平臺整體框架圖

建設方法

以數據質量檢核管理PDCA方法論,基於美團大數據平臺,對數據質量需求和問題進行全質量生命週期的管理,包括質量問題的定義、檢核監控、發現分析、跟蹤反饋及知識庫沉澱。數據質量PDCA流程圖如圖2所示:

DataMan:美团旅行数据质量监管平台实践

圖2 數據質量PDCA流程圖

關鍵流程

質量監管平臺建設實踐應用及價值體現,離不開管理流程、技術實現和組織人員的緊密結合,主要包含如下8大流程步驟:

  1. 質量需求:發現數據問題;信息提報、收集需求;檢核規則的需求等;

  2. 提煉規則:梳理規則指標、確定有效指標、檢核指標準確度和衡量標準;

  3. 規則庫構建:檢核對象配置、調度配置、規則配置、檢核範圍確認、檢核標準確定等;

  4. 執行檢核:調度配置、調度執行、檢核代碼;

  5. 問題檢核:檢核問題展示、分類、質量分析、質量嚴重等級分類等;

  6. 分析報告:數據質量報告、質量問題趨勢分析,影響度分析,解決方案達成共識;

  7. 落實處理:方案落實執行、跟蹤管理、解決方案Review及標準化提煉;

  8. 知識庫體系形成:知識經驗總結、標準方案沉澱、知識庫體系建設。

質量檢核標準

  • 完整性:主要包括實體缺失、屬性缺失、記錄缺失和字段值缺失四個方面;

  • 準確性:一個數據值與設定為準確的值之間的一致程度,或與可接受程度之間的差異;

  • 合理性:主要包括格式、類型、值域和業務規則的合理有效;

  • 一致性:系統之間的數據差異和相互矛盾的一致性,業務指標統一定義,數據邏輯加工結果一致性;

  • 及時性:數據倉庫ETL、應用展現的及時和快速性,Jobs運行耗時、運行質量、依賴運行及時性。

大數據平臺下的質量檢核標準更需考慮到大數據的快變化、多維度、定製化及資源量大等特性,如數倉及應用BI系統的質量故障等級分類、數據模型熱度標準定義、作業運行耗時標準分類等和數倉模型邏輯分層及主題劃分組合如下圖3所示。

DataMan:美团旅行数据质量监管平台实践

圖3 質量檢核標準圖

美旅數倉劃分為客服、流量、運營、訂單、門店、產品、參與人、風控、結算和公用等十大主題,按Base、Fact、Topic、App邏輯分層,形成體系化的物理模型。從數據價值量化、存儲資源優化等指標評估,劃分物理模型為熱、溫、冷、冰等四類標準,結合應用自定義其具體標準範圍,實現其靈活性配置。

作業運行耗時分為:優、良、一般、關注、耗時等,每類耗時定義的標準範圍既符合大數據的特性又可滿足具體分析需要,且作業耗時與數倉主題和邏輯分層深度整合,實現多角度質量洞察評估。

針對數萬的作業信息從數據時效性、作業運行等級、服務對象範圍等視角,將其故障等級分為S1:嚴重度極高;S2:嚴重度高;S3:嚴重度中;S4:嚴重度低等四項標準,各項均對應具體的實施策略。整體數據質量的檢核對象包括離線數倉和實時數據。

監管核心點

DataMan:美团旅行数据质量监管平台实践

圖4 數據質量監管功能圖

數據質量功能模塊設計的主要功能如上圖4所示,包括:監控對象管理、檢核指標管理、數據質量過程監控、問題跟蹤管理、推薦優化管理、知識庫管理及系統管理等。其中過程監控包括離線數據監控、實時數據監控;問題跟蹤處理由問題發現(支持自動檢核、人工錄入)、問題提報、任務推送、故障定級、故障處理、知識庫沉澱等形成閉環流程。

管理流程

流程化管理是推進數據問題從發現、跟蹤、解決到總結提煉的合理有效工具。質量管理流程包括:數據質量問題提報、數據質量問題分析、故障跟蹤、解決驗證、數據質量評估分析等主要環節步驟;從干係人員的角度分析包括數據質量管理人員、數據質量檢查人員、數據平臺開發人員、業務及BI商分人員等,從流程步驟到管理人員形成職責和角色的矩陣圖。如圖5所示:

DataMan:美团旅行数据质量监管平台实践

圖5 數據質量流程圖

問題彙總:

數據質量提報、ETL處理及監控過程上報、數據質量檢查點等多方來源,其中ETL處理部分為程序自動化上報,減少人為干預。

問題分析:通過規定的角色和崗位的人員對彙總問題分析和評估,由統一公共賬號自動推送提醒消息至責任人。

問題工單:對採集的問題經過分析歸類,主要劃為信息提示和故障問題兩大類,信息提示無需工單生成,故障問題將產生對應的工單,後推送至工單處理人。

故障定級:針對生成的問題工單判斷其故障級別,其級別分為:S1、S2、S3、S4等四類(如圖3所述),針對尤為嚴重的故障問題需Review機制並持續跟蹤CaseStudy總結。

知識庫體系:從由數據問題、解決方案、典型案例等內容中,提煉總結形成標準化、完備知識庫體系,以質量問題中提煉價值,形成標準,更加有效的指導業務、規範業務,提高源頭數據質量,提升業務服務水平。

質量流程管理:

  • 流程原則:統一流程、步驟穩定。

  • 權限控制:流程節點與人員賬戶號綁定,若節點未設置人員賬戶即面向所有人員,否則為規定範圍的人員。

  • 權限管理:可結合美團平臺的UPM系統權限管理機制。

技術方案

總體架構

DataMan系統建設總體方案基於美團的大數據技術平臺。自底向上包括:檢測數據採集、質量集市處理層;質量規則引擎模型存儲層;系統功能層及系統應用展示層等。整個數據質量檢核點基於技術性、業務性檢測,形成完整的數據質量報告與問題跟蹤機制,創建質量知識庫,確保數據質量的完整性(Completeness)、正確性(Correctness)、當前性(Currency)、一致性(Consistency)。

總體架構圖如圖6所示:

DataMan:美团旅行数据质量监管平台实践

圖6 質量監管DataMan總體架構圖

  • 數據源及集市層:首先採集數據平臺質量相關的元數據信息、監控日誌信息、實時日誌、檢測配置中心日誌、作業日誌及調度平臺日誌等關鍵的質量元數據;經數據質量集市的模型設計、監控對象的分類,加工形成完整、緊關聯、多維度、易分析的數據質量基礎數據模型,為上層質量應用分析奠定數據基礎。數據來源自大數據平臺、實時數倉、調度平臺等,涉及到Hive、 Spark、Storm、 Kafka、MySQL及BI應用等相關平臺數據源;

  • 存儲模型層:主要功能包括規則引擎數據配置、質量模型結果存儲;以數據質量監控、影響關聯、全方位監控等目標規則引擎的推動方式,將加工結果數據存儲至關係型數據庫中,構成精簡高質數據層;

  • 系統功能層:包括配置管理、過程監控、問題跟蹤、故障流程管理、實時數據監控、知識庫體系的創建等;處理的對象包括日誌運行作業、物理監控模型、業務監控模型等主要實體;

  • 系統展示層:通過界面化方式管理、展示數據質量狀態,包括質量監控界面、推薦優化模塊、質量分析、信息展示、問題提報、故障跟蹤及測量定級、系統權限管理等功能。

技術框架

前後端技術

DataMan:美团旅行数据质量监管平台实践

圖7 技術架構圖

DataMan應用系統其前端框架(如上圖7)基於Bootstrap開發,模板引擎為FreeMarker,Tomcat(開發環境)作為默認Web容器,通過MVC的方式實現與應用服務層對接。Bootstrap的優勢基於jQuery,豐富的CSS、JS組件,兼容多種瀏覽器,界面風格統一等;FreeMarker為基於模板用來生成輸出文本的引擎。後臺基於開源框架Spring4,Spring Boot,Hibernate搭建,其集成了Druid,Apache系列和Zebra等數據庫訪問中間件等,為系統的功能開發帶來更多選擇和便利。

Zebra中間件

系統數據庫連接採用中間件Zebra,這是美團點評DBA團隊推薦的官方數據源組件,基於JDBC、API協議上開發出的高可用、高性能的數據庫訪問層解決方案;提供如動態配置、監控、讀寫分離、分庫分表等功能。Zebra整體架構如圖8所示:

DataMan:美团旅行数据质量监管平台实践

圖8 Zebra架構圖

Zebra客戶端會據路由配置直連到MySQL數據庫進行讀寫分離和負載均衡。RDS是一站式的數據庫管理平臺,提供Zebra的路由配置信息的維護;MHA組件和從庫監控服務分別負責主庫和從庫的高可用。Zebra支持豐富的底層連接池;統一源數據配置管理;讀寫分離和分庫分表;數據庫的高可用。

數據模型

整個質量監管平臺數據流向為數據質量元數據信息採集於美團平臺,包括數據倉庫元數據信息、質量檢測元數據、調度平臺日誌信息、監控日誌及實時元數據信息等,加工形成獨立數據質量的集市模型,以此支撐應用層系統的數據需求。應用層系統數據庫採用關係型數據庫存儲的方式,主要包含了規則配置管理信息、數據質量結果庫等信息內容。數據流向層級關係圖如下:

DataMan:美团旅行数据质量监管平台实践

圖9 數據流向層級圖

數據平臺層:基於美團大數據平臺的數據質量元數據是質量分析和監管的來源,是整個系統最基礎重要資源信息,此數據主要包括:數倉元數據信息,如數倉模型表基本信息、表存儲空間資源信息、表分區信息、節點信息、數據庫meta信息、數據庫資源信息等;運行作業調度日誌信息,如作業基本信息、作業運行資源信息、作業調度狀態信息、作業依賴關係信息及作業調度日誌監控信息等;質量檢測元數據信息主要來源於SLA、DQC(美團內部系統)檢測結果的信息。實時元數據採集於調度平臺實時作業運行的API接口調用分析。

質量集市層:DM數據質量集市的獨立創建是依託基礎元數據信息,根據質量監管平臺配置的引擎規則ETL加工形成。規則庫引擎如數倉應用主題的劃分規則、數倉邏輯分層約束、數據庫引擎分類、模型使用熱度等級、模型存儲空間分類、資源增長等級、歷史週期分類、作業重要級別、作業運行耗時等級、作業故障分類、及數據質量標準化定義等。

在管理方向上,如模型或作業所屬的業務條線、組織架構、開發人員等;在時效上分為離線監控數據、實時數據集市等。從多個維度交叉組合分析形成模型類、作業類、監控日誌類、實時類等主題的等易理解、簡單、快捷的數據質量集市層,強有力的支撐上層應用層功能的數據需求。數據質量集市DM主要模型如圖10所示:

DataMan:美团旅行数据质量监管平台实践

圖10 數據質量集市模型圖

  • 模型設計:“統一規範、簡單快捷、快速迭代、保障質量”,基於美團平臺元數據、平臺日誌、實時數據接口等來源,通過制定的規則、標準,形成可衡量、可評估的數據質量集市層,主要包含公共維度類、模型分析類、作業監控類、平臺監控類等主要內容;

  • 實時數據:針對實時作業的監控通過API接口調用,後落地數據,實時監控作業運行日誌狀態;

  • 數據加工:基於美團平臺離線Hive、Spark引擎執行調度,以數倉模型分層、數倉十大主題規則和數據質量規則庫等為約束條件,加工形成獨立的數據集市層。

應用分析層:應用層系統數據採用關係型數據庫(MySQL)存儲的方式,主要包含了規則配置管理信息、數據質量分析結果、實時API落地數據、故障問題數據、知識庫信息、流程管理及系統管理類等信息內容,直接面對前端界面的展示和管理。

系統展示

數據質量DataMan監控系統一期建設主要實現的功能包括:個人工作臺、信息監控、推薦信息、信息提報、故障管理、配置管理及權限系統管理等。系統效果如圖11所示:

DataMan:美团旅行数据质量监管平台实践

圖11 系統效果圖

個人工作臺

在系統中將個人待關注、待處理、待優化、待總結等與個人相關的問題和任務形成統一的工作平臺入口,通過公共賬號推送的方式,第一時間提醒個人,通知反饋問題的提出者,保障問題可跟蹤,進度可查詢,責任到人的工作流程機制。

離線監控

系統可定時執行模型監控、作業監控、平臺日誌監控等元數據質量規則引擎,開展數據倉庫主題模型、邏輯層級作業、存儲資源空間、作業耗時、CPU及內存資源等細化深度分析和洞察;按照質量分析模型,以時間、增長趨勢、同環比、歷史基線點等多維度、全面整合打造統一監控平臺。

實時監控

從應用角度將作業按照業務條線、數倉分層、數倉主題、組織結構和人員等維度劃分,結合

作業基線信息,實時監控正在運行的作業質量,並與作業基線形成對比參照,預警不符合標準的指標信息,第一時間通知責任人。實時作業運行與基線對比監控效果如圖12所示:

DataMan:美团旅行数据质量监管平台实践

圖12 實時作業運行監控圖

推薦信息

系統通過規則引擎的設置和自動調度的執行,從存儲資源配置、數據模型優化、作業優化、日誌錯誤超時、預警通知等方面考慮,以制定的質量標準為評估依據,自動檢測評估,彙總問題,形成可靠的推薦優化內容,並在達到閾值條件後主動推送消息,觸發後續任務開展。

公共賬號

通過“數據治理公共賬號”機器人發送消息模式,將預判觸發的預警通知、任務分配、任務提醒和風險評估等信息第一時間通知相應的負責人員,開啟工作流程。

故障處理

支持自動提報和人工填報兩種模式,以閉環工作流方式開展工作,確保問題故障可跟蹤、可查詢、可定級、可考核、可量化,以責任到人、落地可行的處理模式,嚴控數據質量,從根本上提高數據質量,提升業務服務水平。

DataMan質量監管系統的投入運營,優化數據存儲資源、提高作業性能、降低任務耗時、推進了管理工作的規範化和精細化。信息推薦功能以推送通知的形式將待優化、存風險和超時故障信息第一時間發送個人工作臺,以工作流機制推動開展;模型監控、作業監控功能在數據存儲、模型建設、作業耗時等場景合理的控制資源,節省了投資成本。

問題提報和故障管理功能的有效結合

,將問題發現、提報、任務分配、處理完成及Review總結沉澱等形成了責任到人、問題可詢的閉環流程。隨著系統的深入運行,將在實時數據監控、質量故障統計管理、數據質量考核機制、數據資產質量權威報告、知識庫體系標準化及流程深化管理等功能方面持續推進和發揮價值。

總結

數據質量是數據治理建設的重要一環,與元數據管理、數據標準化及數據服務管理等共同構建了數據治理的體系框架。建設一個完整DataMan質量監管平臺,將從監控、標準、流程制度等方面提升信息管理能力,優先解決所面臨的數據質量和數據服務問題,其效果體現以下幾個方面:

  • 監控數據資產質量狀態,為優化數據平臺和數據倉庫性能、合理配置數據存儲資源提供決策支持;

  • 持續推動數據質量監控優化預警、實時監控的機制;

  • 重點優先監控關鍵核心數據資產,管控優化20%核心資源,可提升80%需求應用性能;

  • 規範了問題故障的跟蹤、Review、優化方案。從數據中提煉價值,從方案中形成標準化的知識體系;

  • 由技術檢測到業務監督,形成閉環工作流機制,提高整體數據質量,全面提升服務業務水平。

數據質量是數據倉庫建設、數據應用建設和決策支持的關鍵因素,可通過完善組織架構和管理流程,加強部門間銜接和協調,嚴格按照標準或考核指標執行落地,確保數據質量方能將數據的商業價值最大化,進而提升企業的核心競爭力和保持企業的可持續發展。

德曉,美團點評數倉專家、大數據高級工程師,長期從事數據倉庫、數據建模、數據治理、大數據方向系統實踐建設等,現為美團點評大交通數據倉庫建設負責人。

---------- END ----------


分享到:


相關文章: