大數據可以代替EDW嗎?

在過去的兩,三十年裡,數據倉庫一直是流行語,大數據是技術的新趨勢。在我們腦海中經常出現的一個問題是:“它們是否相似,大數據會取代數據倉庫嗎?”,原因是兩者都有相似之處,例如保存數據,用於報告目的並由電子存儲設備進行管理。兩者之間存在根本的區別,即:大數據解決方案是一項技術,而數據倉庫是數據計算中的體系結構概念。

一個組織可以基於四個考慮因素而具有不同的組合,例如僅大數據或數據倉庫解決方案,或者大數據和數據倉庫解決方案,例如:數據結構,數據量,非結構化數據,讀取架構。

這篇博客文章試圖找出兩者之間的相似點和不同點,並用一個用例用例示例進行說明。

什麼是數據倉庫?

數據倉庫是一種概念性體系結構,可幫助存儲結構化,面向主題的,時變的,非易失性數據以供決策。數據倉庫通常存儲歷史數據,即專門為查詢和分析而構造的交易數據的副本。物理數據整合已經轉向一種更邏輯的方式,它也可以容納實時數據。來自源的數據將進行轉換(清理,應用業務規則,增強),並在ETL / ELT階段進行分析,以加載為結構化形式(可以是關係,維,混合等)。


大數據可以代替EDW嗎?

圖1:傳統的EDW體系結構

傳統的數據倉庫集成了來自許多事務和運營系統的數據,以將結果信息作為“事實的單個集成版本”呈現給組織各個級別的決策者。數據倉庫的設計,如果做得正確,可以使我們從所有相關的和可能的角度訪問,報告和分析該信息;從而驅動一致,準確的信息。

什麼是大數據?

大數據是用來存儲各種來源的非結構化數據和管理數據艾字節體積龐大(西海岸州的大小)和技術澤字節(太平洋的大小)。大數據能夠使用較便宜的存儲設備存儲結構化,半結構化和非結構化數據,包括視頻,音頻,非結構化文本等。數據處理是分散的,並分佈在多個服務器上,以加快處理速度。存儲的數據沒有架構或建模,並且數據以其本機格式存儲。通過將規則應用於此數據來完成實際使用,並獲得報告。



大數據可以代替EDW嗎?

圖2:大數據倉庫架構

數據倉庫與大數據比較表

大數據可以代替EDW嗎?

選擇數據倉庫或大數據:

當前的數據不僅大小龐大,而且具有4V(體積,速度,變化率,準確性)的特徵,這徹底改變了數據的消耗方式。舉一個例子,Facebook報告說,每天共享近25億個不同項目,並且其數據每天以500TB的速度增長,並且聲稱捕獲每個用戶在其存儲空間中的點擊。

大數據可以代替EDW嗎?

圖3:從數據倉庫到大數據

因此,隨著組織的發展,出現了從這些數據中存儲和提取價值信息的挑戰,這涉及成本,質量,準確性和維護。傳統的數據倉庫通常在作為中央存儲庫的單個或多個關係數據庫中實現。與傳統數據倉庫不同,大規模並行分析數據庫(例如Netezza,Teradata,EMC GreenPlum)能夠以最小的數據建模要求快速提取大量主要為結構

化的數據,並可以橫向擴展以容納數TB到PB的數據。對於最終用戶而言,最重要的是,大規模並行分析數據庫支持對複雜SQL查詢的接近實時的結果。而且,用ELT代替ETL很好。

相比之下,大數據技術旨在跨越多臺計算機並處理海量數據,無論結構化,半結構化或非結構化數據在基於雲的環境或使用Hadoop,HDFS,NOSQL等的分佈式服務器中均具有高性能。

關於業務使用情況視圖,業務可以從EDW輕鬆訪問報告,但僅限於結構化和交易數據。同樣,由於數據的結構安排,可以根據需要獲取DW中所有級別的信息。如果業務需要社交媒體中可用的其他信息,則需要根據日誌重新構建DW。業務部門對每條原始數據進行分析,並要求對大數據進行單獨的轉換以生成報告。這涉及成本和額外的努力。由於存在的數據是非結構化且未組織的,因此檢索大數據中存在的信息非常困難。

用例示例

金融服務公司生成結構化數據,例如客戶統計數據和交易歷史記錄,以及非結構化數據,例如客戶在網站和社交媒體上的行為。如果組織依賴於對時間敏感的數據分析,則傳統的DWH數據庫更適合結構化的客戶人口統計和交易歷史記錄。另一方面,在快速性能並不重要的地方,大數據分析適合所有結構化和非結構化的客戶交易或行為數據。

大數據/ Hadoop和EDW可以共享相同的保護傘嗎?

企業越來越多地意識到,他們需要結合傳統數據倉庫的業務需求,一方面將其歷史業務數據源,另一方面將結構化程度較低的大數據源與另一端結合。支持傳統數據和大數據源的混合模型因此可以幫助實現這些業務目標。

在這種混合模型中,高度結構化的優化運營數據保留在嚴格控制的數據倉庫中,而高度分佈且實時變化的數據則由基於Hadoop的基礎架構控制。Teradata Aster Big Analytics Appliance-是第一種嵌入SQL和大數據分析處理的工具,可提供對具有高性能和可伸縮性的多結構數據源的更深入瞭解。


大數據可以代替EDW嗎?


圖4:混合DWH模型

此外,混合方法還允許公司保護其在各自的DWH基礎架構中的投資,並將其擴展以適應大數據環境。由於Hadoop是一個產品家族,每個產品都具有多種功能,因此數據倉庫體系結構中的多個領域可以為Hadoop產品做出貢獻,例如數據登臺,數據歸檔,模式靈活性等。Hadoop作為吸引和存儲大型存儲的數據平臺似乎最引人注目擴展DW環境中的數據,以及在其他平臺上處理該數據以用於分析目的。

在具有Hadoop /大數據集群的企業中放大DWH的方法之一如下:

  • 繼續將來自OLTP和後臺系統的結構化數據存儲到DWH中。
  • 將非結構化數據(即與電話日誌,客戶反饋,GPS位置,照片,推文,電子郵件,文本消息中與客戶的所有通信)存儲到表中的Hadoop / NoSQL中。
  • 將DWH中的數據與Hadoop集群中的數據(也可以加載到ODS中)進行關聯,以更好地瞭解客戶,產品,設備等。組織現在可以針對此協同運行臨時分析以及集群化和定向模型Hadoop中與數據相關的數據,否則在計算上會非常密集。

結論

雖然大數據技術專注於高級分析,這是數據歸檔的現代化策略,但數據倉庫主要是為報表,OLAP和績效管理而構建的。因此,我們可以正確地指出,大數據是對數據倉庫的補充而不是替代。它們根據業務需求共存。

Hadoop不會替換數據倉庫,因為數據及其平臺是數據倉庫體系結構中的兩個非等效層。但是,Hadoop更有可能替換等效數據平臺(例如關係數據庫管理系統)。


分享到:


相關文章: