數據湖、數據倉庫、數據中臺,有什麼區別?

宋美昕


隨著大數據技術在各領域大量的運用,數據管理工具也得到了飛速的發展,從最初決策支持系統(DSS)到商業智能(BI)、數據倉庫,然後逐步發展並出現了功能更強大的數據湖、數據中臺。但是對於這些概念很容易混淆,下面就主要談談他們之間的區別便於讀者對數據平臺相關的概念有全面的認識。

第一數據倉庫

說到數據倉庫就不得不提一下BI系統

BI(Business Intelligence)中文名稱是商業智能,百度上的解釋是:“用現代數據倉庫技術、線上分析處理技術、數據挖掘和數據展現技術進行數據分析以實現商業價值。”簡單的說就是企業充分利用其數據進行多維度分析,掌握自己公司的經營狀況,幫助業務人員和高層人員做分析和決策,它起源於決策支持系統(decision support system),其展現形式更多以報表方式實現。

一,數據倉庫的定義

數據倉庫是一個面向主題的、集成的、隨著時間不斷變化、非易失性的,隨時間變化的用來支持管理人員決策的數據集合,就是為BI應用服務的。

面相主題:就是進行決策分析時重點關注的方向,比如某個分析的主題是收入,和庫存。那麼數倉裡的數據都是以收入和庫存在主題組織的。

集成:這個比較容易理解就是存在數據倉庫裡的數據都是經過一系列加工、整理和彙總的過程,因此數據倉庫中的信息是關於整個企業的一致的全局信息。

隨著時間不斷變化:是指數據倉庫中的數據是一段時間以來的數據總和隨著時間的變化數據還是會進行更新,通過這些更新的數據信息,才可以對企業的發展歷程和未來趨勢做出定量分析和預測。

非易失性:數據倉庫中的數據通常是一次載入和訪問的,並且數據在一定意義上不進行更新。這和上面的並不矛盾只是參考的東西不同而已。

二,數據倉庫的定位和缺點

傳統的數倉只是滿足領導數據決策的需要,因此更多的體現在報表輸出,使用者以小部分的業務人員和決策層為主,新需求的開發週期以月甚至到年為計。數據處理能力有限,很少有EDW的數據容量超過1TB,因此不能對基礎數據進行跨域的處理(原因是RMDBS對大數據量的關聯join處理耗時非常長),因此要對新的指標分析的時候需要從基礎數據重新生成彙總表,耗時耗力,使用方法上無法實現跨數據集或數據域的處理。

第二,數據湖

首次由Dan Woods在2011年7月福布斯上的《Big Data Requires a Big, New Architecture》中提出,它提出CIO們應該考慮數據湖(“Data lake”)這個思維方式來替代數據倉庫(“data warehouse”)的思維,它的架構和理念是把原先不存儲的基礎數據也存儲起來,彙總各個數據源的數據方便以後的數據分析和查詢,但是數據湖只是解決了聚集問題,並沒有替代數據倉庫,而是發展成了一個和數倉相互補充的一個數據管理工具。



目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。數據湖是一個概念,而Hadoop是用於實現這個概念的技術。所以數據可以存儲結構化和非結構化的數據。

結構化和非結構化數據的區別

結構化數據就是通常數據倉庫存的數據,它們通常以二維表的形勢或者文檔型存儲的數據。非結構化數據種類比較多有圖形、網頁、音頻、視頻等。

第三數據中臺

數據中臺的概念是最早提出的是阿里巴巴,由於阿里巴巴業務發展迅速,比如阿里雙十一等業務的數據處理事相當龐大的,為了保證日常性的多個業務前臺的數據需求,應對大規模數據線性可擴展問題而在技術和組織架構等方面採取的一些創新。

數據中臺的概念

數據中臺是指通過企業內外部多源異構的數據採集、治理、建模、分析,應用,使數據對內優化管理提高業務,對外可以數據合作價值釋放,成為企業數據資產管理中樞。數據中臺建立後,會形成數據API,為企業和客戶提供高效各種數據服務。中臺的戰略核心是數據共享,並不只是一個數據平臺,而是讓數據在數據平臺和業務系統形成一個良性的閉環,實現數據之間緊密交互。

數據中臺由一系列的工具和產品組成,阿里雲數據中臺以智能數據構建與管理Dataphin產品、商業智能QuickBI工具和企業參謀產品為主體等一系列工具組成。

數據中臺定位於計算後臺和業務前臺之間,這個概念也很好理解,前臺和後臺之間自然就是中臺了,如下圖所示:

數據倉庫和數據湖的區別

存儲方式的不同

在儲存方面上,數據湖中數據為非結構化的,所有數據都保持原始形式。存儲所有數據,並且僅在分析時再進行轉換。

數據處理的不同

數據倉庫就是數據通常從事務系統中提取。在將數據加載到數據倉庫之前,會對數據進行清理與轉換。在數據抓取中數據湖就是捕獲半結構化和非結構化數據。而數據倉庫則是捕獲結構化數據並將其按模式組織。

數據處理的目的不同

數據湖的目的就是數據湖非常適合深入分析的非結構化數據。數據科學家可能會用具有預測建模和統計分析等功能的高級分析工具。而數據倉庫就是數據倉庫非常適用於月度報告等操作用途,因為它具有高度結構化。 在架構中數據湖通常,在存儲數據之後定義架構。使用較少的初始工作並提供更大的靈活性。在數據倉庫中存儲數據之前定義架構。

如下圖

數據湖和數據中臺的區別

數據中臺與數據湖相比,數據中臺強調方法論,組織和工具的建設。非常強調數據賦能業務,衍生出很多的數據業務產品。比如在阿里面向商家的生意參謀,面向人物屬性的標籤服務、面向行業小二的行業洞察…這些都極大的擴展了數據價值,其次數據中臺按分析的原子指標和派生指標方式做計算並存儲在Maxcompute平臺上,如有及時查詢要求會同步分析結果數據給MPP或其他DB。這塊在數據頂層設計,全域資產、統一技術、產品業務上與Datalke及EDW是不同的。

數據中臺整體技術架構上採用雲計算架構模式,將數據資源、計算資源、存儲資源充分雲化,並通過多租戶技術進行資源打包整合,並進行開放,為用戶提供“一站式”數據服務。所以和它和數據湖數據倉庫還是有很大的區別的。


未來數據科技


數據湖、數據倉庫和數據中臺,他們並沒有直接的關係,只是他們為業務產生價值的形式有不同的側重。

數據湖作為一個集中的存儲庫,可以在其中存儲任意規模的所有結構化和非結構化數據。在數據湖中,可以存儲數據不需要對其進行結構化,就可以運行不同類型的分析。

數據倉庫,也稱為企業數據倉庫,是一種數據存儲系統,它將來自不同來源的結構化數據聚合起來,用於業務智能領域的比較和分析,數據倉庫是包含多種數據的存儲庫,並且是高度建模的。

數據中臺是一個承接技術,引領業務,構建規範定義的、全域可連接萃取的、智慧的數據處理平臺,建設目標是為了高效滿足前臺數據分析和應用的需求。數據中臺距離業務更近,能更快速的相應業務和應用開發的需求,可追溯,更精準。

數據湖、數據倉庫更多地是面向不同對象的不同形態的數據資產。而數據中臺更多強調的是服務於前臺,實現邏輯、標籤、算法、模型的複用沉澱。

數據中臺像一個“數據工廠”,涵蓋了數據湖、數據倉庫等存儲組件,隨著數據中臺的發展,未來很有可能數據湖和數據倉庫的概念會被弱化。

小結

數據空間持續增長,為了更好地發揮數據價值,未來數據技術趨於融合,同時也在不斷創新。


分享到:


相關文章: