大數據平臺數據架構設計

數據作為企業的高價值資產需要科學合理的組織及架構予以管理,參考國內外大型企業的成功實踐及相關理論,為了滿足實現客戶大數據平臺的可持續發展,數據架構將借鑑其他數據倉庫平臺和數據分析平臺的技術架構,同時參考全球的最佳實踐案例,採用分層架構設計客戶大數據平臺數據架構,如下圖所示:

數據架構的五部分主要內容及定位如下所述:

1. 數據獲取層

該層的作用是獲取來自多個數據源系統的數據,包括內部設備生產數據、設備檢修數據、監控數據、運輸生產數據、以及外部數據。通過ETL或者ELT兩種方式將源系統數據抽取、轉換、加載到數據倉庫平臺,進行數據彙總整合,並作為後續數據轉換的輸入,作為數據進入數據整合層的準備。該層採用多種技術從源系統中抽取數據,加載方式包括實時加載、準實時加載、定時加載,變化數據獲取等。該層數據與源系統數據結構一致,需要組織多級結構,如數據登陸區、源系統鏡像區等,可提供數據鏡像分析查詢,並可支持ODS類業務需求。

2. 數據整合層

該層的作用是按照企業邏輯數據模型整合數據,作為企業的單一數據來源支持各類數據應用。該層的核心是邏輯數據模型,按照第三範式構建,是應用中立的。在構建物理數據模型時,可根據實際業務需求和平臺架構特點適當增加彙總及衍生數據。

大數據平臺內部可分為四層:臨時數據層、基礎數據層、彙總數據層、應用數據層;

· 數據獲取層數據加載至數據倉庫平臺,生成臨時數據層;

· 臨時數據層數據在數據倉庫平臺內進行數據整合,並參考交通行業邏輯數據模型,建設企業級邏輯數據模型,生成基礎數據層;

· 在基礎數據層的基礎之上,基於數據挖掘分析常用的維度進行數據彙總,生成彙總層數據模型;

· 根據業務應用系統的應用需要,進行指標報表、即席查詢、專題分析、數據分析和數據挖掘,生成應用數據層,支撐業務應用系統各種類型應用的數據訪問和使用;

· 根據業務應用需要進行數據探索分析,生成挖掘分析結果,提供給前臺應用使用;

3. 數據訪問層

該層的作用是將數據整合層中範式化的數據轉化成為用戶友好的結構,提升具體應用的使用效率和易用性。提供查詢訪問、信息推送、可視化展現、自助服務等功能,供業務人員訪問企業級大數據平臺的數據分析結果。該層根據語義層數據模型構建,通常是多維模型的視圖,面向具體的業務應用需求。該層可有多級結構,如基礎表拷貝、訪問權限控制視圖、面向具體應用的語義層視圖等。

4. 數據探索層

該層的作用是實現對數據的快速探索及評估。該層可靈活使用各層數據及用戶導入的外部數據,以支持靈活快速的數據探索,快速實驗、快速迭代的進行數據評估。數據探索層具備在數據倉庫平臺內實現數據的探索分析功能,經過ETL處理之後的數據加載進入數據倉庫平臺之後,成為基礎行為類數據,通過在庫內執行SQL完成數據整合處理,生成探索過程數據。

5. 數據交付層

該層的作用是面向業務應用場景交互式的進行數據可視化展現、數據挖掘分析,用業務人員熟悉的工具、靈活高效的展現數據結果,應用數據支持各業務需求。

數據倉庫是一個動態的過程。許多行業技術分析人員認為,數據倉庫中的數據流由於複雜的信息收集技術、不斷增長的事務量以及需要更好地查看業務而變得非常巨大。邏輯數據模型反映了客戶實現的業務規則,類似於建築物的架構藍圖,它是數據在數據倉庫環境中組織方式的圖形表示。

邏輯數據模型可以識別業務的重要性和事件,以及這些事情和事件是如何通過數據相互關聯的。它具體定義了可以存儲哪些單個數據元素以及它們之間的相互關係。邏輯數據模型最終定義了可以從數據倉庫中回答哪些簡單或複雜的業務問題,從而確定整個數據倉庫的業務價值。隨著業務問題的複雜性和數量的增加,以及為將來可能提出的未預料問題提供答案的能力也隨之增加。

邏輯數據模型位於數據架構的整合層,它的設計目標是實現整體架構的應用中立、適應業務變化、保障系統長期平滑演進、提升業務及IT人員溝通效率的目的,可見邏輯數據模型是整體數據架構中最核心、最重要的部分,它的設計及實施難度大、風險高,需要有成熟的方法論及項目實踐經驗予以支持。


分享到:


相關文章: