02.25 IBM BigInsights大數據遷移

依據本平臺的IBM BigInsights產品特性及項目建設的要求,整體架構圖如下所示:


IBM BigInsights大數據遷移


數據採集

提供多種採集手段,通過Federation做數據聯邦,進行小批量數據的處理;針對日誌收集採用Flume進行處理;大批量數據採用Sqoop進行處理;也可採用支持DataStage、JDBC等其他形式進行收集。

數據存儲與處理

針對Biginsights產品特性,GPFS、Adaptive MapReduce是IBM針對相關技術特性做了優化,本項目建議採用的技術:分佈式文件系統GPFS、分佈式計算Adaptive MapReduce、列式存儲HBase、數據倉庫HIVE、流計算Storm、內存計算Spark+shark、文本分析Text Analytics、數據挖掘R、Mahou、數據流處理PIG、分佈式協作服務Zookeeper、工作流引擎Ooize。

數據可視化分析

BigSheets、SAP BO、IBM Cognos、開源Echarts等進行按需展示與分析。

平臺保障

依據平臺建設要求,通過元數據管理、調度管理、集群管理、統一監控管理等方面手段對系統數據做安全保障。

1.數據庫結構

依據數據庫數據獲取、存儲,並支持ETL工具的相關要求,數據庫結構設計如下所示:


IBM BigInsights大數據遷移


數據庫結構依據BigInsights Big SQL的產品特性對數據做獲取、存儲。BIgSQL 是 BigInsights 的 SQL 接口,能幫助我們查詢數據,為 Hive、HBase 或BigInsights 分佈式文件GPFS存儲數據;針對處理過的數據也可導入至BigSQL的DB2引擎庫中為數據展示平臺提供支持;BigSQL的DB2引擎庫也可做為ETL工具存儲數據的目標源,支持數據中心ETL抽取工具。

2. 數據遷移工具

數據遷移工具採用Federation、Sqoop、Flume、DataStage、JDBC等多種方式。

Federation:支持多數據源,數據類型匹配度高、輕量級數據遷移利器

WebSphere Federation Server 支持業界新興的 Enterprise Information Integration (EII) 概念。這種技術使應用程序能夠訪問和集成不同的數據和內容源,無論這些信息位於何處,它們看上去就像是一個資源,但同時又能保持源系統的自治和完整性。

聯邦的底層原理是,對於用戶而言,他們使用的所有數據看上去是在一個數據源中。通過呈現這個單獨的源鏡像,聯邦技術使數據請求者不必直面與訪問不同位置的數據相關的所有複雜性,包括連接、語義、格式和訪問方法。中間件使用戶或代表用戶的應用程序可以透明地訪問信息,而不必關心其物理實現。 因此,WebSphere Federation Server 非常適合作為常見分析和報告工具、開發環境門戶和其它標準 IT 基礎設施組件的幕後工具。

通過 WebSphere Federation Server,可以在一條 SQL 語句中將分佈式請求發送到多個數據源。例如,可以在一條 SQL 語句中連接一個 DB2 表、一個 Oracle 表和一個 XML 標記文件中的數據。當應用程序向聯邦系統提交一個查詢時,聯邦服務器識別相關數據源,並生成一個用於獲得被請求數據的查詢執行計劃。查詢執行計劃通常將原始查詢拆分成多個片段,這些片段表示委派到各個數據源的作業,同時還提供聯邦服務器要執行的其它處理,包括進一步的過濾、聚合或合併數據。即使某些被請求的信息來自具有很少或不具有查詢處理能力的數據源,例如簡單的文本文件,聯邦服務器將進一步處理從數據源收到的數據,這種能力使應用程序可以充分利用查詢語言的威力。除了管理聯邦以外,聯邦服務器還是一個功能完整的關係數據庫,具有存儲和管理本地數據的能力。

總而言之,WebSphere Federation Server 的功能包括:

Ø 整合來自本地表和遠程數據源的數據,就好像這些數據是本地存儲在聯邦數據庫中。

Ø 更新關係數據源中的數據,就好像數據存儲在聯邦數據庫中一樣。

Ø 將分佈式請求發送到數據源進行處理,利用數據源的處理能力和特有的優化能力。

Ø 在聯邦服務器上處理一部分分佈式請求,彌補 SQL 在數據源上的限制。

實現 EII 的聯邦方法已經可以與更傳統的數據整合方法相媲美。整合的數據存儲通常用於提取、轉換、裝載(ETL)或複製數據,是當今信息集成的標準選擇,已經成為高可用性的能夠快速獲取、集成訪問相關信息的最佳方法。通過創建單個物理拷貝,企業可以滿足性能或可用性需求,交付時間點一致的快照,併為語義一致性提供完善的轉換。

Sqoop:操作簡單、適合大數據量、增量級更新的數據遷移利器

Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。

Flume:日誌數據遷移利器

Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力。

3.數據存儲

Biginsights大數據平臺的數據存儲結構通常分為三種不同類型的表存儲,它們分別是普通表,Hadoop表,HBase表。

普通表是指對應DB2數據庫的表,普通表主要用於存儲臨時數據,一般在上面創建一些臨時表。

Hadoop表主要是指Hive上的表,Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的Sql查詢功能,可以將Sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

HBase是一個分佈式的、面向列的數據庫。HBase不同於一般的關係數據庫,它是一個適合於非結構化數據存儲的數據庫。另一個不同的是HBase基於列的而不是基於行的模式。是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。

4. 數據展現

數據展現通常情況採用普通數據+報表工具展現,通過大數據平臺將數據處理後再導入到普通的數據庫(例如:Oracle、MySQL、Sql Server等)中,可以靈活選擇報表工具(例如: Cogons、BO等)、Bigsheets、ECharts個性化開發等方式展現。

Cognos是在BI核心平臺之上,以服務為導向進行架構,是唯一可以通過單一產品和在單一可靠架構上提供完整業務智能功能的解決方案。它可以提供無縫密合的報表、分析、記分卡、儀表盤等解決方案,通過提供所有的系統和資料資源,以簡化公司各員工處理資訊的方法。作為一個全面、靈活的產品,Cognos業務智能解決方案可以容易地整合到現有的多系統和數據源架構中。能有效地將各種相關的信息關聯起來,使用戶在分析彙總數據的同時能夠深入到自己感興趣的細節數據中,以便更全面地瞭解情況,做出正確決策。

SAP BusinessObjects是SAP公司旗下的商務智能產品,包含SAP BusinessObjects Enterprises和Crystal Reports、Webintelligence、Crystal Dashboard Design、SAP BusinessObjects Edge 解決方案等。

SAP BO報表支持多種報表樣式,普通行列報表、主/子報表,交叉表,圖形摘要;

報表20多種圖形:條形圖,餅圖,曲線圖,甘特圖,雷達圖,氣泡圖,股票圖,漏斗圖等;

提供常用的報表模板:所有報表呈現連續性,不用每次重新設計。

SAP BO廣泛的數據源連接,提供超過35個數據源驅動用於訪問任何相關數據源支持在一份報表中整合多個數據源。

SAP BO報表可視化設計環境,通過拖放元素組成報表:標題,數據庫字段等排序專家,分組專家,彙總專家,圖標專家等嚮導;強大的公式語言:160多個功能函數,自定義函數。

SAP BO報表多樣的文件導出格式Word、Excel、HTML、XML、PDF、RTF、CSV、TXT。

BigSheets 是 InfoSphere BigInsights 的一部分,它基於Web的電子表格式界面使得用戶能夠輕鬆地分析大量數據。BigSheets 主要提供了以下功能特性:對非結構化、半結構化數據的分析處理能力。以表格的形式展示數據結果,並提供圖形化展示例如餅圖、柱狀圖等,分析結果一目瞭然。提供了過濾、連接、分組查詢、加載、複製等多種公式以及條件、選擇、數學計算、文本操作等豐富的函數庫,能滿足大部分場景中的數據分析需求。支持多種文件格式分析包括 CSV,TSV,JSON,網絡爬蟲數據、自定義字符分割文件等。基於 Apache Hadoop,因此比傳統的商業分析工具擁有更快速、強大的海量數據處理能力。支持分析結果以多種格式導出。BigSheets 提供了擴展性:用戶可以自定義閱讀器、宏、圖形化工具甚至自定義 MapReduce 程序來導入數據。

ECharts縮寫來自Enterprise Charts,商業級數據圖表,一個純Javascript的圖表庫,可以流暢的運行在PC和移動設備上,兼容當前絕大部分瀏覽器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底層依賴輕量級的Canvas類庫ZRender,提供直觀,生動,可交互,可高度個性化定製的數據可視化圖表。創新的拖拽重計算、數據視圖、值域漫遊等特性大大增強了用戶體驗,賦予了用戶對數據進行挖掘、整合的能力。支持折線圖(區域圖)、柱狀圖(條狀圖)、散點圖(氣泡圖)、K線圖、餅圖(環形圖)、雷達圖(填充雷達圖)、和絃圖、力導向佈局圖、地圖、儀表盤、漏斗圖、事件河流圖等12類圖表,同時提供標題,詳情氣泡、圖例、值域、數據區域、時間軸、工具箱等7個可交互組件,支持多圖表、組件的聯動和混搭展現。


分享到:


相關文章: