本文集中辨析了商業智能BI和數據倉庫、數據湖、數據中臺的內涵與差異點。
文丨數據工匠俱樂部 ID:zgsjgjjlb
作者丨楊青
1.數據倉庫
數據倉庫平臺逐步從BI報表為主到分析為主、到預測為主、再到操作智能為目標。
商務智能(BI,Business Intelligence)是一種以提供決策分析性的運營數據為目的而建立的信息系統。是屬於在線分析處理:On Line Analytical Processing(OLAP),將預先計算完成的彙總數據,儲存於魔方數據庫(Cube) 之中,針對複雜的分析查詢,提供快速的響應。在前10年,BI報表項目比較多,是數據倉庫項目的前期預熱項目(主要分析為主的階段,是數據倉庫的初級階段),製作一些可視化報表展現給管理者。
它利用信息科技,將分散於企業內、外部各種數據加以整合並轉換成知識,並依據某些特定的主題需求,進行決策分析和運算;用戶則通過報表、圖表、多維度分析的方式,尋找解決業務問題所需要的方案;這些結果將呈報給決策者,以支持策略性的決策和定義組織績效,或者融入智能知識庫自動向客戶推送。
1.1數據倉庫基本定義
數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用於支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。[1]:引自全球數據倉庫之父 W.H.Inmon。
所謂主題:是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。所謂集成:是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和彙總的過程,因此數據倉庫中的信息是關於整個企業的一致的全局信息。所謂隨時間變化:是指數據倉庫內的信息並不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
1.2數據倉庫系統作用和定位
數據倉庫系統的作用能實現跨業務條線、跨系統的數據整合,為管理分析和業務決策提供統一的數據支持。數據倉庫能夠從根本上幫助你把公司的運營數據轉化成為高價值的可以獲取的信息(或知識),並且在恰當的時候通過恰當的方式把恰當的信息傳遞給恰當的人。
是面向企業中、高級管理進行業務分析和績效考核的數據整合、分析和展現的工具;是主要用於歷史性、綜合性和深層次數據分析;數據來源是ERP(例:SAP)系統或其他業務系統;能夠提供靈活、直觀、簡潔和易於操作的多維查詢分析;不是日常交易操作系統,不能直接產生交易數據;數據倉庫針對實時數據處理,非結構化數據處理能力較弱,以及在業務在預警預測方面應用相對有限。
1.3數據倉庫能提供什麼
1.4數據倉庫系統構成
數據倉庫系統除了包含分析產品本身之外,還包含數據集成、數據存儲、數據計算、門戶展現、平臺管理等其它一系列的產品。
2.數據湖
數據湖(Data Lake)是Pentaho的CTO James Dixon提出來的(Pentaho作為一家BI公司在理念上是挺先進的),是一種數據存儲理念——即在系統或存儲庫中以自然格式存儲數據的方法。
2.1維基百科對數據湖的定義
數據湖(Data Lake)是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象blob或文件。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用於報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關係數據庫(行和列)的結構化數據,半結構化數據(CSV,日誌,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻,視頻)。來源:維基百科。
目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。數據湖是一個概念,而Hadoop是用於實現這個概念的技術。
2.2數據湖能給企業帶來多種能力
數據湖能給企業帶來多種能力,例如,能實現數據的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。另外,數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化後的運營模型,也能為企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的後續增長。數據湖能從以下方面幫助到企業:
實現數據治理(data governance)。通過應用機器學習與人工智能技術實現商業智能。預測分析,如領域特定的推薦引擎。信息追蹤與一致性保障。根據對歷史的分析生成新的數據維度。有一個集中式的能存儲所有企業數據的數據中心,有利於實現一個針對數據傳輸優化的數據服務。幫助組織或企業做出更多靈活的關於企業增長的決策。2.3數據倉庫與數據湖差異
在儲存方面上,數據湖中數據為非結構化的,所有數據都保持原始形式。存儲所有數據,並且僅在分析時再進行轉換。數據倉庫就是數據通常從事務系統中提取。在將數據加載到數據倉庫之前,會對數據進行清理與轉換。在數據抓取中數據湖就是捕獲半結構化和非結構化數據。而數據倉庫則是捕獲結構化數據並將其按模式組織。數據湖的目的就是數據湖非常適合深入分析的非結構化數據。數據科學家可能會用具有預測建模和統計分析等功能的高級分析工具。而數據倉庫就是數據倉庫非常適用於月度報告等操作用途,因為它具有高度結構化。在架構中數據湖通常,在存儲數據之後定義架構。使用較少的初始工作並提供更大的靈活性。在數據倉庫中存儲數據之前定義架構。3.數據中臺
3.1產生的背景
企業在過去信息化的歷程中形成了大量生產經營及專業業務應用成果,同時也累積了大量的企業數據資產。限於傳統的數據倉庫技術手段,數據管理和分析能力成為信息化工作中的短板。企業信息系統眾多,系統管理獨立,數據存儲分散,橫向的數據共享和分析應用僅由具體業務驅動,難以對全局數據開展價值挖掘,從規模上和效果上都無法真正體現集團龐大數據資產的價值。市場競爭和產業鏈日益全球化,企業不只滿足於內部數據的分析,更要通過互聯網、微信、APP等新技術手段結合外部市場數據進行整體分析。
(1)傳統的數據倉庫不能滿足數據分析需求。
企業在數據分析應用方面呈現“五大轉變”(從統計分析向預測分析轉變、從單領域分析向跨領域轉變、從被動分析向主動分析轉變、從非實時向實時分析轉變、從結構化數據向多元化轉變),並且對統一的數據中臺平臺訴求強烈,對數據中臺的運算能力、核心算法、及數據全面性提出了更高的要求。
(2)數據中臺的處理架構發生了變化。
一是以Hadoop、Spark等分佈式技術和組件為核心的“計算&存儲混搭”的數據處理架構,能夠支持批量和實時的數據加載以及靈活的業務需求。二是數據的預處理流程正在從傳統的ETL結構向ELT轉變。傳統的數據倉庫集成處理架構是ETL結構,這是構建數據倉庫的重要一環,即用戶從數據源抽取出所需的數據,經過數據清洗,將數據加載到數據倉庫中去。而大數據背景下的架構體系是ELT結構,其根據上層的應用需求,隨時從數據中臺中抽取想要的原始數據進行建模分析。
3.2數據中臺建設是數字化轉型的關鍵支撐
數據中臺成為熱點,“中臺”這個概念,是相對於前臺和後臺而生,是前臺和後臺的鏈接點,將業務共同的工具和技術予以沉澱。數據中臺是指數據採集交換、共享融合、組織處理、建模分析、管理治理和服務應用於一體的綜合性數據能力平臺,在大數據生態中處於承上啟下的功能,提供面向數據應用支撐的底座能力。
廣義上來給數據中臺一個企業級的定義:“聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業務價值的邏輯概念”。
中臺戰略核心是數據服務的共享。中臺戰略並不是搭建一個數據平臺,但是中臺的大部分服務都是圍繞數據而生,數據中臺是圍繞向上層應用提供數據服務構建的,中臺戰略讓數據在數據平臺和業務系統之間形成了一個良性的閉環,也就是實現應用與數據之間解藕,並實現緊密交互。
3.3數據中臺定義及處理架構
數據中臺是指通過企業內外部多源異構的數據採集、治理、建模、分析,應用,使數據對內優化管理提高業務,對外可以數據合作價值釋放,成為企業數據資產管理中樞。數據中臺建立後,會形成數據API,為企業和客戶提供高效各種數據服務。
數據中臺整體技術架構上採用雲計算架構模式,將數據資源、計算資源、存儲資源充分雲化,並通過多租戶技術進行資源打包整合,並進行開放,為用戶提供“一站式”數據服務。
利用大數據技術,對海量數據進行統一採集、計算、存儲,並使用統一的數據規範進行管理,將企業內部所有數據統一處理形成標準化數據,挖掘出對企業最有價值的數據,構建企業數據資產庫,提供一致的、高可用大 數據服務。
數據中臺不是一套軟件,也不是一個信息系統,而是一系列數據組件的集合,企業基於自身的信息化建設基礎、數據基礎以及業務特點對數據中臺的能力進行定義,基於能力定義利用數據組件搭建自己的數據中臺。
3.4數據中臺帶來價值
數據中臺對一個企業的數字化轉型和可持續發展起著至關重要的作用。數據中臺為解耦而生,企業建設數據中臺的最大意義就是應用與數據解藕。這樣企業就可以不受限制地按需構建滿足業務需求的數據應用。
4.傳統數據倉庫與數據中臺的差異點
作為工業企業,一般採用混搭架構:
5.傳統數據倉庫與數據中臺的差異點
本文對數據倉庫、數據湖、數據中臺等內涵作了詳細說明,便於讀者更好的理解和掌握數據領域相關概念。
最後總結一點:數據中臺更好的支撐數據預測分析、跨領域分析、主動分析、實時分析、多元化結構化數據分析,數據中臺建設是我們企業數據服務和共享奠定重要的基礎,可以加速從數據到價值的過程,打造相應業務能力。
(鳴謝:蔡春久先生給予專業指導)
參考文獻
[1].國家標準GB/T 36073-2018《數據管理能力成熟度評估模型》
[2].中國信息通信研究院雲計算與大數據研究所CCSA TC601大數據技術標準推進委員會《數據資產管理實踐白皮書(4.0)》
[3].《The DAMA Guide to the Data Management Body of Knowledge》
[4]. Boris Otto《Data Governance》
[5]. Weber K, Otto B, Oterle H (2009).《One Size Does Not Fit All---A Contingency Approach to Data Governance》
[6]. Khatri V, Brown CV (2010).《Designing data governance》
[7].《論金融機構金融風險管理中的數據治理》
[8].《Building the data warehouse》 W. H. Inmon
[9].《The DGI Data Governance Framework》
[10].《數據資產管理》高偉 機械工業出版社
[11]. 《Building the data warehouse》 W. H. Inmon
[12].wikipedia 維基百科
更多精彩點擊官網:http://www.julongcloud.com
聚龍雲 ,新一代智慧商業數字化服務商。
聚龍雲秉承著“聚焦智慧商業,融合商業智慧”的理念,運用行業尖端的大數據技術、人工智能技術、物聯網技術、區塊鏈技術,整合“零售+互聯網+金融”生態資源,形成了覆蓋零售全業態、全渠道、全觸點、全鏈路的智慧商業解決方案體系。同時,聚龍雲創建創新實驗室,積極探索更多具有社會價值的應用領域,為國內外客戶提供優質高效的服務。