03.01 某集團型企業兩級數據倉庫最佳實踐

隨著某集團型企業信息化建設工作的不斷深入,業務系統不斷建設和深化應用,為了充分利用各應用系統積累的數據資源,提升了企業的數據利用水平,實現基於綜合數據的輔助決策。股份公司進行了公司門戶、數據倉庫、數據集成與輔助決策平臺的建設,搭建了公司總部的數據中心平臺,部署了具有一定規模的軟硬件環境,用以支撐公司綜合數據分析,數據集成與共享,業務系統單點登錄等。但目前的軟件環境建設還不夠完善,相關主題數據分析還不夠豐富和深入,指標體系不夠健全,覆蓋的範圍主要是總部集中部署的系統和總部應用的系統,基於各業務板塊的分析缺乏,因此還需要進行環境完善、優化和深入開發,以期發揮更大效益。

按照公司信息化建設“統一規劃、統一標準、統一建設、統一管理”的原則,根據IT技術的發展趨勢,基於SOA的思想,構建靈活、可重用的二級數據中心體系架構,實現兩級數據和信息統一集中管理,及時、快速地把信息傳達到所需位置;擴展及完善股份公司總部基於數據架構的決策支持指標體系,尤其是核心業務的工程項目管理系統指標體系以及投資項目、各廠等的指標體系;構建集中部署的數據交換服務總線,搭建子企業級試點數據中心及決策支持平臺,建立適合子企業級的決策報表平臺及指標體系模型,通過試點為下一步推廣打好基礎;制定相應的技術規範和管理標準,為實現企業數據統一標準、規範管理、信息共享及應用系統整合提供規範、易用、穩定的載體。

通過本項目實施實現兩級數據倉庫邏輯體系架構,是在可擴展的數據倉庫框架的基礎上,結合股份公司總部和子企業兩級單位信息系統建設的實際情況與總體需求而設計出來的。在該架構中,清晰地定義了數據源系統、備份區、ODS、數據倉庫、數據集市層、數據交換層所涵蓋的內容與範圍,而數據庫管理將貫穿整個兩級數據中心繫統的每個層次與環節,前端應用層將完成可分析系統的管理和對最終業務用戶的服務。


某集團型企業兩級數據倉庫最佳實踐


下面將詳細介紹兩級數據中心中的各個層次並明確定義各層之間的接口,為數據中心後續兩級數據中心建設的詳細設計提供參考。

1.源數據層

股份公司總部數據中心數據源來自投資系統、設備物資系統、人力資源系統、市場經營系統4個源系統的數據加載。同時還有來自股份公司總部業務人員手工補錄的數據。

子企業數據中心數據源來自NC財務系統、NC資金系統、人力資源系統、市場經營系統、綜合項目管理系統等業務系統的數據加載。對於沒有系統支撐的數據,採用業務人員手工補錄的方式進行採集。股份公司總部與子企業之間的數據交換採用CDC進行數據交換。

數據源指存儲於股份公司總部和子企業各業務系統中的數據,以及手工補錄的數據。由於數據源的來源有多處,同時手工補錄的數據比較多,不同的源系統的體系架構、開發平臺、數據結構等存在很大差別,不同系統的數據定義、標準也存在很大的差異;另外由於業務的不斷變化,歷史數據與當前數據之間的含義也可能存在不同,因此數據整合必須充分考慮源系統在技術和數據方面存在的差異。

另外,由於多個不同數據源的來源,其數據質量並不能盡如人意。在這種情況下,需要針對不同的情況,採用各種改善數據質量的方法,包括在數據文件接口標準、導入、清洗、轉換過程中對數據的加工處理,甚至採取一些人工處理的手段,以保證數據倉庫中數據的質量,從而保證建立在數據集市之上的應用的結果質量。

數據倉庫的應用,特別是一些分析和模擬,會對各類數據有一個時間跨度的要求。因此,在數據倉庫的實施過程中還涉及到歷史數據導入的問題。不同類型的歷史數據保存在不同的地方,很多情況下保存在的備份數據庫、備份磁帶或者其他設備上。在項目實施過程中,需要分析不同種類的數據需要多長時間的歷史數據,這些歷史數據都保存在什麼地方,可以採用什麼方法來加載這些歷史數據,並在上線前完成數據的加載。

2 數據轉換層(ETL)

數據抽取、轉換和加載是將數據從數據源整合到數據倉庫和數據集市的過程。

抽取是指識別最佳的數據源,並從中獲得所需的數據。它是將數據導入數據倉庫的第一步。抽取意味著讀取並理解源數據,並複製數據集市所需要的部分。

轉換泛指使數據倉庫數據適合於終端使用的過程。這一過程包括那些將源數據格式變為目標數據庫格式的模塊。一般而言,轉換包括映射、清洗、彙總、重排和排序等步驟。

在兩級數據中心的體系架構中,包括五個部分的ETL 過程:從源系統到備份區的ETL過程(僅限股份公司總部)、從備份區到ODS的ETL 過程(僅限股份公司總部)、從ODS到數據倉庫的ETL過程、從數據倉庫到數據數據集市之間的ETL 過程、上下兩集數據倉庫數據交換的ETL過程。從源系統到備份區的ETL過程將需要完成各業務系統的實時備份;從備份區到ODS之間的ETL過程將需要完成對所需源數據抽取;從ODS到數據倉庫的ETL過程將需要完成對數據的清洗和整合,最終在數據倉庫中形成統一的、一致的數據集;從數據倉庫到數據集市之間的ETL過程主要是根據不同數據應用分析的需要,從數據倉庫中提取數據經過轉換生成特定的數據集;上下兩集數據倉庫數據交換的ETL過程將需要完成上下兩集數據中心數據的實時複製。

本系統中採用的ETL工具為IBM DATASTAGE。


某集團型企業兩級數據倉庫最佳實踐


標準的ETL流程分為5個大的步驟,通過對數據的加載、清洗、轉換匯總及處理將源系統分散的數據抽象整合至數據倉庫及應用模型之中,實現強大的信息查詢和報表分析。

3 數據服務層

數據服務層是數據倉庫的核心,其主要用途是讓用戶能夠便捷、高效的訪問數據。因此在設計上對數據分區存儲,每區的功能和用途保證明確和單一,避免由於設計上的交叉重複引起的混亂和低效,造成後續維護的困難。

4 應用服務層

應用服務層包括應用服務器和數據展現層。

對於數據的應用和展示而言,建議採用應用工具包和前端展示工具相結合使用。在子企業數據中心繫統應用上,建議採用專用的應用工具包提供相對成熟的、快速的系統解決方案。此外,最終用戶可以通過報表、圖形和其它分析工具的方式簡便、快捷地訪問數據集市系統中的各種數據,得到分析結果。標準報表是一種格式固定、內容依據預定義的條件變化的報表,是在系統開發時根據用戶需求定製的,最終用戶無法自己修改。即席查詢報表的格式和內容可以由最終用戶自由選擇。

本系統中的應用服務器將採用Websphere軟件,前端展現工具採用Cognos的工具套裝。

在業務分析開發中,須考慮採用控制查詢條件、查詢範圍、優化取數邏輯、返回局部結果等方式,限制報表一次查詢的返回記錄數,提高查詢語句和界面展示的響應時間。

5 訪問控制層

訪問控制層位於用戶和應用服務層之間,它負責提交用戶請求到應用服務層。它為用戶提供應用集成、訪問控制、用戶統一認證等服務。

對於股份公司總部與有門戶的子企業,建議訪問控制層如下:


某集團型企業兩級數據倉庫最佳實踐


對於沒有門戶的子企業,需要通過決策支持平臺自己的安全認證體系為用戶層進行用戶權限的管理。系統的Web功能基於通用展現平臺,統一採用JSF+Spring+Hibernate的J2EE技術架構及規範,開發相應的業務功能點 。後續在門戶上線後,需要進行與門戶的整合。


某集團型企業兩級數據倉庫最佳實踐

6 系統數據架構

股份公司數據中心的體系結構可按功能劃分成五個區,分別是備份區、臨時區、基礎區、集市區、數據交換區。這五個區的劃分層次清晰、銜接緊密,可以方便地滿足各類分析型業務和應用的需求。

子企業數據中心的體系結構可按功能劃分成三個區,分別是臨時區、基礎區、集市區。這三個區的劃分層次清晰、銜接緊密,可以方便地滿足各類分析型業務和應用的需求。

本項目的數據源主要有兩大類:業務源系統數據和手工補錄的數據。業務源系統與數據倉庫之間主要的接口是數據庫訪問接口(ODBC、CLI等),手工補錄數據與數據倉庫之間主要的接口是文件接口。

7 系統物理架構

在網絡架構中,由於數據倉庫系統與業務系統之間有著緊密的數據交換和設備的共享使用,因此,數據倉庫系統應首先與業務系統在同一網段以保證數據傳輸的高效性,兩者都通過千兆網絡直接相連。

此外,基於安全上的考慮,在對外部提供數據訪問時,數據倉庫系統在對外接口時仍將採用防火牆技術保證系統的安全性,並將數據倉庫的開發系統與生產系統隔離,必要時通過其他手段進行數據交換。

8 系統運維管理

系統運維管理包括所有的系統維護操作(包括故障處理、參數變更、日誌查詢等)。

針對兩級數據中心業務量較大、業務應用複雜的特點,未來建設應重點考慮效率問題,對每日數據ETL處理效率及數據應用效率進行保證。

9 系統安全管理

安全保障體系包括物理安全、網絡安全、系統安全、應用程序安全、數據資源安全和安全認證,從安全技術和安全管理機制兩個方面為系統提供安全保障。

專用名詞解釋:

CDC(Change Data Capture)

變化數據捕獲(Change Data Capture),基於日誌的變更數據捕獲(CDC)技術,可以實時複製任務關鍵型數據事件,同時又不會影響系統性能針對企業數據量的低延遲、高吞吐量的數據複製,同時維持事務的完整性和一致性

Access Server

是一個客戶機工作站,其中有一組後臺進程,它們把從其他客戶機工作站上的 InfoSphere CDC Management Console 接收的請求轉發給適當的數據存儲。這些進程還把信息返回給應用程序。可以創建數據存儲和其他 InfoSphere CDC 用戶,然後為它們分配 Management Console 的 Access Manager 透視圖。創建的數據存儲和用戶與 Access Server 相關聯。

Management Console

InfoSphere CDC Management Console 是一個交互式應用程序,可以使用它配置和監視複製。可以從客戶機工作站管理不同服務器上的複製、指定複製參數以及啟動刷新和鏡像操作。

數據存儲代表 InfoSphere CDC 系統和可以用於複製的數據庫。數據存儲是源或目標服務器上的一個 InfoSphere CDC 進程。這個進程從 Access Server 的實例接收請求並與 Datastore Replication Engine 通信,從而啟動和管理複製活動。這些進程是在 Management Console 的 Access Manager 透視圖中定義的。

Datastore Replication Engine

Datastore Replication Engine 是一個 InfoSphere CDC 進程,它發送或接收變更數據。在源和目標服務器上安裝 InfoSphere CDC 時,分別在源和目標服務器上創建 Replication Engine 進程。

數據交換

信息資源在互相之間聯網的兩個或兩個以上的不同計算機系統之間發送、傳輸、接收的過程


分享到:


相關文章: