02.27 IBM DataStage

1 ETL抽取工具IBM DataStage

利用IBM InfoSphere DataStage數據轉換和轉移流程選擇源數據並把它們轉換和映射為目標系統需要的格式。這個流程讓數據與目標環境中的業務領域和完整性規則以及其他數據保持一致。

IBM InfoSphere DataStage 支持收集、轉換和分發大量數據,無論數據結構是簡單還是非常複雜。InfoSphere DataStage 可以管理隨時到達的數據和定期或按時間表接收的數據。InfoSphere DataStage 可以幫助公司解決許多大量數據的高性能處理相關的業務問題。

1.1 相關技術點實現

· 能夠連接各種數據源,包括大型機、遺留和企業應用程序、數據庫(Oracle、DB2、Informix、Sybase、Microsoft SQL Server 和 ODBC)和文件集(SAS 數據集、XML、平面文件、Cobol 複合文件)。

· 提供預先構建的全面的函數庫,包含 300 多個函數。這可以減少開發時間和學習難度,提高準確性和可靠性,提供可靠的文檔,可以降低維護成本。

· 通過使用並行的高性能處理架構,讓硬件投資產生最大的吞吐量,在最小的批處理時間窗內完成大量任務,儘可能提高基於事件的連續轉換的數據處理量。

· 提供用於開發、部署和維護的企業級功能以及高可用性平臺支持,這會降低管理和實現風險,與手工編程相比更早地交付結果。

· InfoSphere DataStage 由基於客戶端的設計、管理和操作工具組成,可提供圖形化的操作界面,具有良好的易用性。

· IBM InfoSphere Information Server 引擎中運行,客戶端把開發元數據寫到動態存儲庫中,同時把部署所需的編譯的執行數據寫到元數據存儲庫中。

· IBM InfoSphere DataStage and QualityStage Administrator用於管理任務的圖形用戶界面,如設置IBM InfoSphere Information Server 用戶、日誌記錄、創建和移動項目以及設置清除記錄的條件。

· 多個服務提供配置系統所需的靈活性,可以支持不斷變化的用戶環境和分層架構,共用服務在架構的許多部分之間提供靈活的可配置的互連。

· IBM InfoSphere DataStage 引擎運行可執行的作業,作業可按各種設置提取、轉換和裝載數據,引擎使用並行處理和流水線快速處理大量工作。

· IBM InfoSphere Information Server 提供幾十個預先構建的 stage,它們用於執行最常見的數據集成任務,比如排序、合併、聯結、轉換、查找和聚合,stage 包含用於高性能地讀取和裝載關係數據庫的強大組件,包括並行關係數據庫。

· IBM InfoSphere stage 通常提供大多數企業數據集成應用程序所需的應用程序邏輯的 80% 到 90%,InfoSphere Information Server 還為構建和集成定製的 stage 提供多個 stage 類型。

· IBM InfoSphere DataStage and QualityStage Designer 中的一個選項在InfoSphere DataStage 上下文中顯示作業或表定義之間的差異,顯示文本報告和與Designer 客戶端中相關編輯器的鏈接,還可以查看共享的容器和例程等作業元素的差異,可以把報告保存為 XML 文件。

· IBM InfoSphere DataStage and QualityStage Director 檢驗、運行、調度和監視由 IBM InfoSphere Information Server 引擎運行的作業。

· IBM InfoSphere DataStage Director 客戶端包含一個監視工具,它顯示處理信息,Monitor Job Status 窗口顯示處理的行數和每個stage狀態信息等。

· IBM InfoSphere DataStage日誌功能,當檢驗、運行或重新設置作業時,會更新作業日誌文件,日誌文件對於解決檢驗失敗或非正常終止的作業的問題非常有價值。

· IBM InfoSphere DataStage 數據流中的任何地方運行各種外部命令,包括服務器引擎命令、程序和作業,可以使用操作系統的本機命令窗口(shell)運行任何命令並指定命令參數,包括 Perl 腳本、DOS 批處理文件、UNIX 腳本和其他非交互式命令行可執行程序,還可以通過命令行、API 和 Web 服務接口以文本或 XML 形式返回作業監視信息。

· IBM InfoSphere DataStage Balanced Optimizer傳統的數據集成平臺提供非常健壯的連接功能,可以訪問企業應用程序、大型機數據存儲庫和平面文件等非關係數據源。數據集成平臺的關鍵組件是提取、轉換和裝載 (ETL) 引擎,ETL 使用高性能可伸縮的集成架構從一個或多個源提取數據,然後執行數據轉換和豐富,最後把數據裝載進一個或多個目標中,這種方法利用高性能可伸縮的引擎,還可以減少對數據源和目標的影響。

1.2 性能點分析

共用的存儲庫:

· 項目元數據:所有項目級元數據組件組織在文件夾中,包括作業、表定義、內置的 stage、可重用的子組件和例程。

· 操作性元數據:存儲庫包含描述集成流程運行歷史的操作性元數據,包括作業是成功還是失敗、使用的參數以及這些事件的日期和時間。

· 設計元數據:存儲庫包含 InfoSphere DataStage and QualityStage Designer 和 IBM InfoSphere Information Analyzer 創建的設計時元數據。

stage構建和集成定製:

· 包裝的 stage:能夠並行地運行現有的順序程序。

· 構建 stage:能夠編寫 C 表達式,通過它們自動地生成並行的定製 stage。

· 定製的 stage:為開發複雜的可擴展的 stage 提供完整的 C++ API。

鏈接和容器:

· 共享的:可重用的作業元素,通常由許多 stage 和鏈接組成。

· 本地的:在一個作業內創建且只能由此作業使用的元素。在作業圖窗口的選項卡式頁面中編輯本地容器,可以用它“清理”作業圖,隔離流的一些區域。

改進作業的性能:

· 轉換作業以使用大批量臨時表:這會改進處理大量數據時的性能。可以轉換其模式屬性包含大批量預備的任何目標連接器,從而把大量數據插入目標數據庫中的臨時預備表中。通過添加後期處理 SQL 把數據從預備錶轉移到真正的目標表中。如果希望根據真正的目標表在另一個目標數據庫實例中創建預備表,那麼可以在 InfoSphere DataStage Balanced Optimization 工具中的一個屬性中指定此實例。

· 在數據目標中執行處理、聯結和查找:把儘可能多的作業工作放到目標數據庫中執行,包括利用目標數據庫中已經存在的查找或聯結源表。還可以實現把大量數據插入預備表中。如果放到目標數據庫中執行的工作涉及數據縮減(例如,作業包含 Aggregator stage 或帶約束表達式的 Transformer stage),那麼也可以選擇在數據源中執行數據縮減。

· 在數據源中執行數據縮減:如果作業中有 Aggregator stage、包含會排除許多行的約束的 Transformer stage 或 Sort stage,這種優化會改進性能。這種優化把儘可能多的處理放在數據源連接器中執行。

· 在數據源中執行聯結和查找:這種優化把涉及相同數據庫服務器中的數據的 Join 和 Lookup stage 放在源數據庫中執行。這種優化還可以避免 Join stage 經常隱式執行的額外排序。

· 在源數據庫、Information Server 引擎和目標數據庫之間平衡工作量:這種優化把儘可能多的工作放在目標數據庫中執行,然後把剩下的工作儘可能放在源數據庫中執行,最後餘下的工作留在作業中。

· 把所有工作放在數據庫中執行:如果作業使用的所有數據都在相同的數據庫上,而且作業中的所有處理都可以在目標數據庫中執行,那麼可以避免所有數據庫 I/O,讓所有處理作為 SQL 在目標數據庫中執行。

2 BI工具 COGNOS

Cognos Business Intelligence 10.1是IBM 商業智能的旗艦產品,是基於SOA架構的商業智能平臺,它採用統一的元數據管理,擁有統一的架構和服務,通過統一的WEB界面,向用戶提供各種類型的BI應用,包括:即席查詢報表、儀表盤、記分卡、分析、事件管理、移動終端展現等,可以完全滿足企業對商業智能和績效管理方面的需求。

1.1.2.1 相關技術點實現

· Cognos通過純web的方式提供了所有的BI功能(即席查詢、專業報表、多維分析、儀表盤、記分卡等功能的),在WEB上使用這些功能,不需要下載任何插件。

· Cognos支持移動終端設備展現,支持iphone, ipad, windows mobile, symbian,blackberry等移動平臺。

· Cognos FrameWork Manger可以為其它元數據管理軟件提供符合CWM標準的元數據,便進行企業元數據的統一管理和維護。

· Cognos提供的企業級OLAP服務器,將從各類數據源(數據庫、數據倉庫、平面文件)中精心篩選出來的數據創建成稱為PowerCubes的多維數據立方體。立方體是按探察業務的OLAP多維因素分析模型的設計創建,通過對多維數據立方體的OLAP分析,可以辨明趨勢、跟蹤業務運作、創建高效的統計彙總報表。

· Cognos的群集是一個全部激活的對等網絡,系統是作為一個統一的邏輯平臺共同承擔負載。集群內任意一臺機器down機都不會對整個系統產生影響,作業會自動的從故障服務器轉移到正常服務器繼續執行,Cognos不僅能在相同的操作系統間配置集群,還能跨系統配置集群。 例如:Cognos可以在windows和Unix、Linux之間配置集群,這樣能夠充分利用資源。

· BI平臺的各種數據源(包括關係型數據庫、多維數據源、企業級應用比如EPR的數據源等),Cognos採用開發式的數據訪問,能夠訪問當前市面上幾乎所有的關係型數據庫、ERP系統的數據源、OLAP數據源等。

· Cognos Analysis Studio的多維分析功能全面支持MOLAP和ROLAP,不管是多維立方體還是關係型數據庫,都可以進行多維分析。只需要在Web界面中通過簡單的鼠標拖拽等操作,就可以進行各種OLAP分析,如上鑽,下鑽,切片,旋轉,切塊等,同時Cognos支持進行混合粒度的分析,支持自定義子集,支持混合維度的分析,支持多維立方體之間的相互鑽取,多維立方體和關係型數據庫之間的鑽取,能夠使用用戶從宏觀到微觀的決策思路和過程。

· Cognos可以註釋實時報表並保存輸出版本,當打印一個報表的PDF版本或是導出報表為PDF或Excel輸出時,註釋也會被包括在其中。

· Cognos能與MS OFFICE無縫融合,安裝了Cognos的OFFICE組件之後,可以使用Excel、PowerPoint、Word訪問報表,還可以創建報表 。

· Cognos 可以同時連接多數據源,甚至異構數據源,一個報表中可以分頁設計,每頁都可以進行多查詢,每個查詢可以連接多個數據源,從而使系統能夠很好的應用在複雜環境中。

· Cognos可以在報表中插入各種HTML腳本,擴展報表功能。

· Cognos可以在Report Studio中開發複雜報表、固定報表、包含動態交互式離線報表Active Report。

· Cognos中包含統計分析、數據挖掘功能,並能夠和主流數據挖掘工具如SPSS等無縫集成。

· Cognos Query Studio查詢功能提供給自助式的即席查詢功能,可以按照自己的需要通過鼠標拖拽的方式查詢自己關心的內容,設置查詢條件,設置過濾,定義格式,套用模版,通過自助式的查詢,大大提高了用戶得到個性化信息的速度。

· Cognos支持複雜的分析功能,支持維度中不同粒度的混合分析,支持不同維度的非平衡混合分析,支持不同層次維度節點之間的計算。

· Cognos可以封裝到招標方的基於IBM的門戶中進行統一展示,同時也可以發佈到子企業符合組件應用的門戶平臺中。

2.1 性能點分析

· Cognos 具有強大的專業化的OLAP 數據引擎(OLAP 服務器),它同時支持MOLAP和ROLAP。

· Cognos的數據立方體採用專有的存儲技術,能夠保證在海量數據處理時佔用很少的存儲空間,一般能達到源數據規模的十分之一到十五分之一的壓縮比率,這種高效的存儲帶來最大的好處就是允許以更多的角度分析更多的指標。

· Cognos同時還支持ROLAP,能夠面向整個數據倉庫進行OLAP分析。同時Cognos還提供了穿透鑽取功能,能夠從CUBE中無縫鑽取到ROLAP的報表。

· Cognos具有處理大用戶數和大數據量的數據訪問分析能力,性能穩定,承載能力傑出,Cognos BI Server是企業級的BI服務器,採用了多線程支持、高效率的處理流程和優化的查詢結構,能夠高效地響應請求。

· Cognos 採用了SOA的體系架構,所有的功能模塊在系統內都被定義為服務,這些服務都通過統一的BI BUS總線進行交互。這樣的架構使得Cognos的部署非常靈活,可以採用分佈式的部署或配置集群。

· 用戶可以訪問各種數據源,基於這些數據源製作報表、分析,數據源包括:DB2、Oracle、SQL Server、Teradata、Sybase和ODBC在內的多種關係型數據源。

· Cognos報表具有分類群發功能,能夠同時以郵件的方式發佈成百上千份的報表。此外,也能夠非常方便的在WEB上製作報表、發佈報表。企業內部和外部的所有類型無需經過培訓都可以通過Web訪問、察看、打印報表。

· Cognos採用開放式的管理方式,Cognos產品本身並不存儲用戶名密碼,它把這部分功能開放出來由第三方認證服務器來完成,如LDAP Server、NTML、AD等。Cognos只管理用戶組和角色,用戶的認證由第三方認證服務器來完成。這樣做的最大的優勢就是Cognos能夠非常方便的與其他系統完成單點登錄(SSO)。如果沒有第三方認證服務器,那麼可以使用Cognos SDK API中的接口,通過簡單的開發,就可以使用數據庫中的用戶名錶進行驗證。

· Cognos產品完全開放各類接口,可供開發者開發第三方應用。

· IBM Cognos 10提供動態報表功能Active Report. IBM Cognos Active Report 是離線的交互式報表,適用於各級業務人員使用,在無法訪問企業內部網絡和數據庫的情況下仍然可以通過此類報表分析數據,獲得有價值的信息。

· 全新的圖形引擎,具有更美觀的展現效果和更多的圖形種類,同時Cognos10兼容Cognos8的圖形引擎,升級後可以繼續使用原有圖形或轉為新的圖形。

· IBM Cognos Business Insight,基於網頁的界面可以讓你建立先進的交互式的儀表盤,來提供見解並使協同決策變得簡單。

3 數據倉庫產品IBM Infosphere Warehouse

IBM DB2 Warehouse是一個集成的數據倉庫軟件平臺。DB2 Warehouse 提供了用於幫助數據倉庫架構師和管理員有效地設計和維護企業數據倉庫所需的工具和基礎設施。DB2 Ware house 是適用於動態數據倉庫解決方案的理想平臺,因為它提供了遠遠超越傳統數據倉庫的強大功能,它的一些關鍵組件能夠幫助您交付動態的業務洞察力,這些組件是完全集成到數據庫倉庫中的。

3.1 相關技術點

· 數據倉庫引擎:IBM DB2 10 平臺是 DB2 Warehouse 解決方案的基礎。利用其具有強大可伸縮性且不共享的分佈式架構,DB2 10 提供了高性能的混合工作負載查詢處理(既可查詢關係數據,也可以查詢 XML 數據)。大量高級特性使 DB2 10 成為一個功能強大的動態數據倉庫引擎,這些特性包括數據分區、多維集群以及物化查詢表(MQT)。

· 建模和設計工具:DB2 Warehouse 包括基於 IBM Rational Data Architect 軟件並且能與其進行互操作的建模和設計工具,從而支持用戶對物理數據庫模式進行設計、建模和實施逆向工程,它提供了一組完備的功能,包括對某個數據庫或整個企業進行物理數據建模、模型驗證、遵從性分析、影響分析以及變更管理。

· 倉庫構建工具(嵌入式數據移動和轉換):DB2 Warehouse 中包含一個用於數據倉庫構建和管理的強大圖形工具。該工具提供了一組數據流、控制和轉換運算符,它們被編譯到 SQL 中,專門針對 DB2 進行操作且可以在數據倉庫中運行。該工具允許用戶更有效地準備和填充數據倉庫分析結構,以便進行數據挖掘、多維分析和嵌入式分析。

· OLAP 的立方體服務:DB2 Warehouse 包括 OLAP 的高級立方體服務,支持多維數據分析,從而允許您將多個業務變量鏈接到一起,以執行比以前更為深入的分析。特別地,DB2 Warehouse 立方體服務允許您採用直觀的多維和分層導航的方式來分析業務數據,而無需從數據倉庫中提取數據。

3.2 性能點分析

IBM DB2數據庫採用業界領先的非共享體系結構,無論在單節點的SMP,還是集群環境下的MPP都相同。IBM DB2 UDB非共享體系結構的特點如下:

· 在數據庫一級劃分為多個分區,既數據庫分區

· 數據庫分區運行在各個節點上

· 分個數據庫分區具有自己的資源 (Engine, LogMg., LockMg., Caches, etc.)

· 數據庫協調所有分區進行並行處理

· 對用戶和應用來看,是一個單獨的系統

· 採用64位軟件體系結構,支持主流Unix平臺、Windows 平臺 ,如IBM、HP、SUN 的硬件平臺和其UNIX操作系統。

· DB2 UDB提供了先進的“哈希(HASH)算法”映射數據庫的每一條記錄到特定的數據庫分區中。“哈希算法”使用表中的一列(或一組列)作為分區關鍵字,得到0至4095的數值。分區圖定義了為4096個值中的每一個值分配的特定的數據庫分區。

· DB2 UDB為數據存儲提供了靈活的拓撲結構以達到高性能及高並行。其中每個數據庫由一些數據庫分區組成,每個數據庫分區實際上是數據庫的一個子集,它包含自己的用戶數據,索引,交易日誌及配置文件。

· 在數據庫中,管理員需要定義節點組(Node Group),數據庫分區所分佈的節點集合。節點組能夠跨越為該數據庫設置的數據庫分區的一部分或全部。在節點組中,還要定義表空間,以說明用來存儲表數據及索引的容器(Container)(文件或設備)。在數據庫分區中,如果為每個表空間定義多個容器,則數據庫管理系統可以利用I/O的並行機制提高性能。

· 高性能,由於特定的記錄在規定的節點進行存儲和管理,應用可以通過找到記錄的存放位置,然後將交易送到記錄所在的節點。從而減少節點間的協調請求,從而保證高性能。

· 動態線性擴展,由於在非共享架構中,每個節點擁有和管理自己的資源,在性能無損前提下,支持1000個節點的動態擴展

IBM DB2數據庫在數據庫、表、同類型表數據3個層次科可以實現分區管理,以便於更有效的將任務並行處理,並最大限度的利用系統資源,從而達到最大的性能優勢。

IBM DB2數據庫採用非共享體系結構,使得IBM DB2數據庫在SMP和MPP環境下,都可以在數據庫層面上,包括數據庫引擎、數據庫資源、數據、日誌、鎖管理方面實現分區管理,從而實現高度的並行性和線型擴展能力。

針對大表數據,除數據庫分區外,還可以針對數據範圍進行分區,以便於更有效的利用I/O。

多維聚餐索引,在表內將相同類型的數據按塊存儲,並建立相應的塊索引,與傳統的行索引相比,可以對數據進行快速的按塊操作,使I/O更加有效。

DB2 UDB引擎中包含大量提高數據庫性能的獨特設計,並且大多數這些關鍵技術是DB2 UDB獨有的或在業界領先的。這些獨到的技術包括:

· 基於成本優化——DB2 UDB優化器自動根據不同查詢路徑的成本決定選擇哪一個查詢路徑,消除了程序員的主觀因素,提高開發效率、減少了系統維護工作量。

· SQL重寫——自動將SQL語句改寫成為能夠利用優化器所有優化方法的語法,從而消除開發團隊不同程序員之間代碼效率的差異,且適合圖形化工具或者開發框架生成的SQL。查詢重寫提高了開發效率,並能提高運行速度。

· 靜態SQL——在應用程序開發階段完成SQL語句的編譯、優化功能,在程序執行時將直接根據預先生成好的執行計劃執行,提高了執行速度。

DB2 10 通過自適應自調優內存來保護寶貴的 IT 工時,超越了以前版本的動態配置甚至自動化系統建議。自適應自調優內存管理通過自動設置內存配置參數的值和調整緩衝池的大小,簡化了內存配置任務。當啟用時,該內存調優工具可以在幾個內存消耗者之間動態分佈可用的內存資源,包括分類、包緩存和鎖列表區域以及緩衝池。這將提供一個動態的並能響應工作負載特點重大變化的出色配置,從而改進了性能。

DB2 UDB的自主管理和資源調優(SMART)功能能夠使DB2 UDB自動監控數據庫系統的運行狀況,並試圖自動調整數據庫運行時的參數,達到提高系統運行效率的功能。DB2 UDB的SMART技術包括:方便的安裝過程、健康中心、自動性能調優命令、自動參數設置助理、索引/MDC/MQT創建助理、自動收集統計信息及確定那些數據庫對象需要收集統計信息、自動調度備份等。

DB2支持適應性、自調式內存分配,通過不斷更新配置參數、調整緩衝池大小和動態分配可用的內存資源,幫助用戶簡化或排除DB2服務器的配置工作。

支持自動存儲支持,可以自動擴充磁盤和文件系統中數據庫的大小,現在可用於多分區數據庫。支持自動統計數據收集,創建新數據庫時會自動啟動。能根據DB2數據庫系統的環境特點,自動配置prefetchers進程與頁清潔器。支持面向自動錶格與索引重組的新策略選項,為數據庫管理員提供更多管理表格與索引重組的功能。

此外,DB2 還提供了大量命令行命令和圖形化管理工具幫助數據庫管理員進行數據庫管理。

4 數據實時複製工具InfoSphere Change Data Capture

利用實時數據複製功能支持數據遷移、應用程序整合、數據同步、動態倉庫、MDM、SOA、業務分析和 ETL 或數據質量流程等。

4.1 相關技術點

· 靈活的實施支持整個企業範圍內數據傳遞的單向、雙向、多對一和一對多數據交付。

· 基於日誌的變更數據捕獲(CDC)技術,可以實時複製任務關鍵型數據事件,同時又不會影響系統性能。

· 易於使用的圖形化用戶界面 (GUI),支持快速的數據集成流程部署。

· 將實時數據事務打包進 XML 文檔,並與消息傳遞中間件(如 WebSphere MQ)相互傳遞,從而支持面向服務的架構 (SOA)。

· 與 IBM InfoSphere DataStage直接集成,確保事務完整性,在不需要試運行的前提下向 ETL 流程提供實時數據源。

· 全面的監視功能提高複製環境的可視化水平,以加速解決問題。

· 針對企業數據量的低延遲、高吞吐量的數據複製,同時維持事務的完整性和一致性。

· 與 InfoSphere Change Data Capture for z/OS 相結合,與 DB2 for z/OS 之間複製異構數據。

· 支持的操作系統:AIX、HP-UX、i 系列、Linux、其他操作系統、Solaris (Sun microsystems)、Windows、z/OS。

· 支持的數據庫:DB2 pureScale 9.8、DB2 for Linux Unix Windows, z/OS, and i、Informix、Oracle 數據庫、Sybase 數據庫、Microsoft SQL Server 和 Teradata。

4.2 性能點分析

· 高性能:IBM InfoSphere Change Data Capture 可以應付數據量很大的複製環境,減少對源數據庫的性能影響。使用基於數據庫日誌的更改數據捕捉,可以處理不斷增加的數據量,按企業需要的節奏提供數據集成。

· 基於日誌的變化數據捕捉:無論是定期還是實時地集成數據,只從源系統捕捉更改過的數據並把它們傳輸到目標系統。IBM InfoSphere Change Data Capture 並不直接對數據庫執行查詢,而是從數據庫日誌中捕捉更改過的數據。

· 運營效率:IBM InfoSphere Change Data Capture 可以消除重複數據傳輸並節省網絡帶寬,從而幫助提高運營效率並節約時間和資源。通過訪問日誌中的數據,IBM InfoSphere Change Data Capture 幫助減少對重要應用程序的性能影響。

· 數據完整性:通過在源和目標之間同步變化信息實現數據交付。在目標上,按照與源系統上相同的次序應用事務,從而確保事務完整性。

· 容易使用:直觀的用戶界面整合了複製環境的配置和監視。

· 無需編程:不需要編程,能夠把精力投入價值更高的目標。可以使用已有的系統並支持跨平臺集成數據,只需對現有的環境做很少的修改。

· 無需編程的數據集成:IBM InfoSphere Change Data Capture 跨各種操作平臺為 DB2、Oracle、Sybase 和 Informix Dynamic Server 提供開箱即用的無需編程的數據集成。

· 數據豐富的業務事件:IBM InfoSphere Change Data Capture 支持與消息隊列集成,從而向業務應用程序提供數據豐富的業務事件。

· 增強的數據集成:IBM InfoSphere Change Data Capture 支持與平面文件集成,有助於跨系統整合數據。

· 實時地捕捉更改,保證信息總是最新的。因此,信息總是最新的而不是上一次執行批處理時的當前數據。

· 對於生產系統的性能影響極小。CDC 讀取數據庫日誌文件,而不是直接查詢數據庫,它對於重要的生產系統影響極小。

· 不需要批處理時間窗。它連續地捕捉、轉換和應用更改,不需要為了提取數據而關閉系統。

· 能夠輕鬆地擴展以處理非常大的數據庫和大量事務。只複製更改而不是更改過的表中的所有數據,由於轉移的數據更少,這會顯著提高可伸縮性。

· 不需要修改源系統。因為 CDC 只讀取日誌文件,所以不需要修改源數據庫,但是可以探測到所有事務,包括關於更改的描述信息(用戶、應用程序、時間等等)。

· 記錄對系統的所有更改,而不只是這些更改的最終結果。為了滿足審計和遵從性需求,記錄所有插入、更新和刪除操作,而不只是這些操作的最終結果。

· 可以補充 ETL 工具。通過實時的 CDC 技術直接訪問數據庫日誌中的數據並從運營性數據庫複製數據,而不需要批處理時間窗或中斷重要的系統,然後使用 ETL 工具把數據裝載進運營性數據存儲,從而向數據倉庫或其他應用程序提供數據。


分享到:


相關文章: