ETL+BI,数据分析这个工具以实力取胜

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。

  ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW(Data Warehousing,数据仓库)中去。

  ETL的实现有多种方法,常用的有三种。一种是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面二种的优点,会极大地提高ETL的开发速度和效率

核心亮点(亿信华辰ABI)

1 程序设计人性化,操作更易用

一般情况下,ETL过程设计需要用到大量的代码,且重复利用率较低。亿信ABI中的ETL功能充分结合大量项目人员实施习惯,操作敏捷易用,可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低实施难度。

亿信ABI的ETL过程支持批量创建,数据抽样,开发过程支持多人协同定义,共享资料库,使得数据处理过程更高效。在此基础上,系统内部封装大量清洗转换规则,极大程度的降低技术门槛,只需简单的拖拽配置,即可玩转数据处理。

ETL+BI,数据分析这个工具以实力取胜


2 丰富的数据处理组件

亿信ABI中的ETL组件丰富多样,面向数据分析师精心打造,满足各种各样的数据处理场景。之前的一个简单的数据处理需求,前期在技术人员这里可能徘徊2,3天的样子,更何况还有后期的修改,有了丰富的可视化ETL组件,复用率高,操作简单,数据处理更高效。

亿信ABI中内置组件包括:输入输出组件,转换组件,流程组件,统计组件,数仓组件、脚本组件、大数据组件、其他组件。

ETL+BI,数据分析这个工具以实力取胜

以转换组件里面的清洗组件为例,清洗组件支持记录级清洗和字段级清洗,内置50多种规则,支持在一个组件中完成多次清洗转换设置。支持清洗前后结果预览。


ETL+BI,数据分析这个工具以实力取胜

3 灵活的调度任务

用户只需简单操作,即可实现复杂的调度任务。亿信ABI的ETL调度导向,深度考虑各使用场景,在便捷易用的同时,满足数据处理时不同的用户需求。

  • 支持基于时间或事件的调度机制,如:任意事件周期、文件到达、脚本事件等;
  • 调度设置支持crontab表达式;
  • 调度设置能指定到月份、星期、日期、小时、分钟的粒度;
  • 支持设置调度的时间窗口,重调时间间隔等;
ETL+BI,数据分析这个工具以实力取胜

4 隔离设计,应用更稳定

为保证运行环境的稳定可靠,提供了设计区与运行区隔离的机制,所有作业的修订和更改通过在设计区完成调试和试运行后,通过发布机制,发布到稳定的运行环境,保证开发和运行两不耽误。

ETL+BI,数据分析这个工具以实力取胜

总结:亿信华辰的亿信ABI成功将两者合在一起,节省人力物力,提高工作效率。


分享到:


相關文章: