超詳細的六款主流ETL工具介紹及功能對比

概述

ETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程),對於企業或行業應用來說,我們經常會遇到各種數據的處理,轉換,遷移,所以瞭解並掌握一種etl工具的使用,必不可少。最近用kettle做數據處理比較多,所以也就介紹下這方面內容,這裡先對比下幾款主流的ETL工具。


1、DataPipeline

Data Pipeline是一家為企業用戶提供數據基礎架構服務的科技公司,DataPipeline數據質量平臺整合了數據質量分析、質量校驗、質量監控等多方面特性, 以保證數據質量的完整性、一致性、準確性及唯一性,徹底解決數據孤島和數據定義進化的問題。

超詳細的六款主流ETL工具介紹及功能對比


2、Kettle

Kettle是一款國外開源的ETL工具,純java編寫,可以在Windows、Linux、Unix上運行,數據抽取高效穩定。Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺裡,然後以一種指定的格式流出。

Kettle家族目前包括4個產品:Spoon、Pan、CHEF、Kitchen。

SPOON 允許你通過圖形界面來設計ETL轉換過程(Transformation)。

PAN 允許你批量運行由Spoon設計的ETL轉換 (例如使用一個時間調度器)。Pan是一個後臺執行的程序,沒有圖形界面。

CHEF 允許你創建任務(Job)。 任務通過允許每個轉換,任務,腳本等等,更有利於自動化更新數據倉庫的複雜工作。任務通過允許每個轉換,任務,腳本等等。任務將會被檢查,看看是否正確地運行了。

KITCHEN 允許你批量使用由Chef設計的任務 (例如使用一個時間調度器)。KITCHEN也是一個後臺運行的程序。

超詳細的六款主流ETL工具介紹及功能對比


3、Talend

Talend,是一家專業的開源集成軟件公司,為企業提供開源的中間件解決方案,從而讓企業能夠在他們的應用,系統以及數據庫中贏取更大的價值。 在傳統軟件公司提供封閉、私有的解決方案的領域Talend系列軟件以開源的形式進行開發。Talend,可運行於 Hadoop 集群之間,直接生成 MapReduce 代碼供 Hadoop 運行,從而可以降低部署難度和成本,加快分析速度。而且 Talend 還支持可進行併發事務處理的Hadoop2.0。

超詳細的六款主流ETL工具介紹及功能對比


4、Informatica

Informatica是全球領先的數據管理軟件提供商。在如下Gartner魔力象限位於領導者地位:數據集成工具魔力象限、數據質量工具魔力象限 、元數據管理解決方案魔力象限 、主數據管理解決方案魔力象限 、企業級集成平臺即服務(EiPaaS)魔力象限。

Informatica Enterprise Data Integration包括Informatica PowerCenter和Informatica PowerExchange 兩大產品,憑藉其高性能、可充分擴展的平臺,可以解決幾乎所有數據集成項目和企業集成方案。

· Informatica PowerCenter用於訪問和集成幾乎任何業務系統、任何格式的數據,它可以按任意速度在企業內交付數據,具有高性能、高可擴展性、高可用性的特點。Informatica PowerCenter包括4個不同版本,即:標準版,實時版,高級版,雲計算版。同時,它還提供了多個可選的組件,以擴展Informatica PowerCenter的核心數據集成功能,這些組件包括:數據清洗和匹配、數據屏蔽、數據驗證、Teradata雙負載、企業網格、元數據交換、下推優化(Pushdown Optimization)、團隊開發和非結構化數據等。

· Informatica PowerExchange 是一系列的數據訪問產品,它確保 IT 機構能夠根據需要隨時隨地訪問並在整個企業內傳遞關鍵數據。憑該能力,IT機構可以優化有限的資源和數據的業務價值。Informatica PowerExchange支持多種不同的數據源和各類應用,包括企業應用程序、數據庫和數據倉庫、大型機、中型系統、消息傳遞系統和技術標準。

超詳細的六款主流ETL工具介紹及功能對比


5、Datax

DataX 是阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺,實現包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構數據源之間高效的數據同步功能。

開源地址:https://github.com/alibaba/DataX

超詳細的六款主流ETL工具介紹及功能對比


6、Oracle Goldengate

GoldenGate軟件是一種基於日誌的結構化數據複製軟件。GoldenGate 能夠實現大量交易數據的實時捕捉、變換和投遞,實現源數據庫與目標數據庫的數據同步,保持亞秒級的數據延遲。

源端通過抽取進程提取redo log或archive log日誌內容,通過pump進程(TCP/IP協議)發送到目標端,最後目標端的rep進程接收日誌、解析並應用到目標端,進而完成數據同步。

超詳細的六款主流ETL工具介紹及功能對比


7、ETL工具對比

整理成表格如下:

超詳細的六款主流ETL工具介紹及功能對比

超詳細的六款主流ETL工具介紹及功能對比

超詳細的六款主流ETL工具介紹及功能對比


覺得有用的朋友多幫忙轉發哦!後面會分享更多devops和DBA方面的內容,感興趣的朋友可以關注下~

超詳細的六款主流ETL工具介紹及功能對比


分享到:


相關文章: