Hadoop上企業數據倉庫優化的參考架構

Hadoop上企業數據倉庫優化的參考架構


Hadoop上企業數據倉庫優化的參考架構

可擴展的廉價存儲和並行處理是Hadoop的基礎。這些功能使Hadoop在補充和優化傳統企業數據倉庫(EDW)工作負載中發揮關鍵作用。此外,最新技術,例如帶有ACID合併的Hive LLAP(內存中,長時間運行的執行線程)和AtScale專有軟件(HDFS中具有聚合緩存的虛擬OLAP多維數據集)現在首次實現了快速的BI直接針對TB和PB使用著名的BI工具(例如Tableau)在Hadoop上提供大尺寸數據。

本文介紹了EDW優化的三個用例的參考體系結構:

  1. 主動歸檔:在Hadoop上歸檔陳舊的EDW數據,以實現便宜的存儲以及探索性和BI分析。
  2. EDW卸載:將分段數據和ETL轉換卸載到Hadoop,並將最終數據結構導出回現有EDW系統(以實現便宜的存儲和Hadoop上更快的ETL,以及對現有EDW上更快的BI查詢)。
  3. Hadoop上的BI:針對Hadoop上的 TB和PB數據的商業智能工具,並有可能淘汰現有的EDW。

問題

  • 與HDFS相比,諸如Teradata和Neteeza之類的EDW系統每GB存儲數據的成本高出50倍以上– 100倍以上
  • EDW系統中的大多數數據(通常高達70%)已分階段轉換為BI查詢所用的最終表。BI用戶不會直接查詢此暫存數據。此分段數據的存儲成本非常高。
  • 老化的數據要麼昂貴地放在EDW上,要麼被歸檔到像磁帶這樣的便宜系統上,BI用戶和分析人員無法訪問它們。
  • 登臺數據的轉換通常是長期的,對於一個轉換工作而言通常要超過一天。
  • EDW系統中的大多數CPU(通常> 50%)用於處理這些轉換。長時間運行的後臺CPU使用率降低了同時運行的BI查詢的性能。這些BI查詢是執行EDW的原因,但通常無法實現最佳性能。
  • EDW寫模式要求強調了加載現代數據源(如半結構化社交數據)的能力

參考架構

請注意,根據您的需求和戰略路線圖,以下任何體系結構均可單獨實施或組合在一起實施。同樣在下面的每個圖中,紅色表示EDW優化數據架構,黑色表示現有的數據架構。

用例1:主動歸檔

在此用例中,將老化的數據卸載到Hadoop,而不是存儲在EDW或磁帶等檔案存儲上。可以通過諸如Sqoop(相對於Hadoop的本地工具)之類的工具或諸如Syncsort DMX-h(與YARN和map-reduce集成Hadoop框架集成的專有技術)之類的ETL工具進行卸載。


Hadoop上企業數據倉庫優化的參考架構

好處:

  • 來自EDW的舊數據現在更便宜地存儲
  • 來自存檔系統(例如磁帶)的老化數據現在可供查詢
  • EDW數據現在與湖中的新數據源(如地理空間,社交或點擊流)結合在一起。這些資源的組合可為BI用戶和數據科學家提供更大的分析功能,例如豐富的數據或客戶360分析。

用例2:EDW卸載

在此用例中,登臺數據和ETL都從EDW卸載到hadoop。原始數據存儲在湖泊中,並處理成用於Hive LLAP表的清潔和標準化數據。清潔和標準化的數據將轉換為可導出到現有EDW的結構。BI用戶繼續使用現有的EDW,而沒有意識到下面的管道已更改。


Hadoop上企業數據倉庫優化的參考架構


好處:

  • 原始數據集中在湖泊中,可供數據科學家使用,並用於其他用例。由於存儲便宜,因此保留了原始數據。
  • 新的(EDW)數據源被吸收到湖泊中,從而如上所述具有更大的分析能力。
  • 由於並行批處理,ETL在Hadoop上明顯更快。ETL時間從幾天的一部分減少到幾分鐘或幾小時。
  • ETL已從現有EDW中刪除。這樣可以釋放大量的CPU,從而顯著提高BI查詢的速度,從而使BI用戶更加滿意。

用例3:Hadoop上的BI

該用例與上述EDW卸載相同,但EDW被Hadoop上的OLAP完全替代或由OLAP增強。對於未開發的環境,OLAP的替換(即預防)特別有吸引力。


Hadoop上企業數據倉庫優化的參考架構


好處:

  • 與以前的用例相同
  • OLAP查詢直接針對湖中的數據運行。與傳統的OLAP相比,湖中的OLAP可以處理的數據量更大,並且可以包含豐富的數據和新的數據源(例如地理位置,社交,點擊流)。
  • 湖中的OLAP可以替代或阻止實施昂貴且受約束的傳統OLAP系統。

結論

傳統的企業數據倉庫正在感受到現代大數據時代的壓力:這些倉庫的價格難以承受,價格昂貴;它們的大部分數據存儲和處理通常專用於BI查詢的準備工作,而不是查詢本身(倉庫的目的);很難存儲各種數據,例如半結構化社交和點擊流;由於成本和擴展性的原因,它們受到可存儲多少數據量的限制。

通過將數據和ETL卸載到此平臺,Hadoop的可擴展的廉價存儲和並行處理可用於優化現有EDW。此外,Hive LLAP和Druid或Jethro等最新技術使您可以將倉庫轉移到Hadoop,並直接針對Hadoop上的TB和PB運行BI工具(Tableau,MicroStrategy等)。本文中的參考體系結構展示瞭如何在Hadoop上和在Hadoop上構建數據,從而在成本,性能和大數據策略方面獲得重大收益。幹嘛要等?


分享到:


相關文章: