02.27 IBM DataStage

1 ETL抽取工具IBM DataStage

利用IBM InfoSphere DataStage数据转换和转移流程选择源数据并把它们转换和映射为目标系统需要的格式。这个流程让数据与目标环境中的业务领域和完整性规则以及其他数据保持一致。

IBM InfoSphere DataStage 支持收集、转换和分发大量数据,无论数据结构是简单还是非常复杂。InfoSphere DataStage 可以管理随时到达的数据和定期或按时间表接收的数据。InfoSphere DataStage 可以帮助公司解决许多大量数据的高性能处理相关的业务问题。

1.1 相关技术点实现

· 能够连接各种数据源,包括大型机、遗留和企业应用程序、数据库(Oracle、DB2、Informix、Sybase、Microsoft SQL Server 和 ODBC)和文件集(SAS 数据集、XML、平面文件、Cobol 复合文件)。

· 提供预先构建的全面的函数库,包含 300 多个函数。这可以减少开发时间和学习难度,提高准确性和可靠性,提供可靠的文档,可以降低维护成本。

· 通过使用并行的高性能处理架构,让硬件投资产生最大的吞吐量,在最小的批处理时间窗内完成大量任务,尽可能提高基于事件的连续转换的数据处理量。

· 提供用于开发、部署和维护的企业级功能以及高可用性平台支持,这会降低管理和实现风险,与手工编程相比更早地交付结果。

· InfoSphere DataStage 由基于客户端的设计、管理和操作工具组成,可提供图形化的操作界面,具有良好的易用性。

· IBM InfoSphere Information Server 引擎中运行,客户端把开发元数据写到动态存储库中,同时把部署所需的编译的执行数据写到元数据存储库中。

· IBM InfoSphere DataStage and QualityStage Administrator用于管理任务的图形用户界面,如设置IBM InfoSphere Information Server 用户、日志记录、创建和移动项目以及设置清除记录的条件。

· 多个服务提供配置系统所需的灵活性,可以支持不断变化的用户环境和分层架构,共用服务在架构的许多部分之间提供灵活的可配置的互连。

· IBM InfoSphere DataStage 引擎运行可执行的作业,作业可按各种设置提取、转换和装载数据,引擎使用并行处理和流水线快速处理大量工作。

· IBM InfoSphere Information Server 提供几十个预先构建的 stage,它们用于执行最常见的数据集成任务,比如排序、合并、联结、转换、查找和聚合,stage 包含用于高性能地读取和装载关系数据库的强大组件,包括并行关系数据库。

· IBM InfoSphere stage 通常提供大多数企业数据集成应用程序所需的应用程序逻辑的 80% 到 90%,InfoSphere Information Server 还为构建和集成定制的 stage 提供多个 stage 类型。

· IBM InfoSphere DataStage and QualityStage Designer 中的一个选项在InfoSphere DataStage 上下文中显示作业或表定义之间的差异,显示文本报告和与Designer 客户端中相关编辑器的链接,还可以查看共享的容器和例程等作业元素的差异,可以把报告保存为 XML 文件。

· IBM InfoSphere DataStage and QualityStage Director 检验、运行、调度和监视由 IBM InfoSphere Information Server 引擎运行的作业。

· IBM InfoSphere DataStage Director 客户端包含一个监视工具,它显示处理信息,Monitor Job Status 窗口显示处理的行数和每个stage状态信息等。

· IBM InfoSphere DataStage日志功能,当检验、运行或重新设置作业时,会更新作业日志文件,日志文件对于解决检验失败或非正常终止的作业的问题非常有价值。

· IBM InfoSphere DataStage 数据流中的任何地方运行各种外部命令,包括服务器引擎命令、程序和作业,可以使用操作系统的本机命令窗口(shell)运行任何命令并指定命令参数,包括 Perl 脚本、DOS 批处理文件、UNIX 脚本和其他非交互式命令行可执行程序,还可以通过命令行、API 和 Web 服务接口以文本或 XML 形式返回作业监视信息。

· IBM InfoSphere DataStage Balanced Optimizer传统的数据集成平台提供非常健壮的连接功能,可以访问企业应用程序、大型机数据存储库和平面文件等非关系数据源。数据集成平台的关键组件是提取、转换和装载 (ETL) 引擎,ETL 使用高性能可伸缩的集成架构从一个或多个源提取数据,然后执行数据转换和丰富,最后把数据装载进一个或多个目标中,这种方法利用高性能可伸缩的引擎,还可以减少对数据源和目标的影响。

1.2 性能点分析

共用的存储库:

· 项目元数据:所有项目级元数据组件组织在文件夹中,包括作业、表定义、内置的 stage、可重用的子组件和例程。

· 操作性元数据:存储库包含描述集成流程运行历史的操作性元数据,包括作业是成功还是失败、使用的参数以及这些事件的日期和时间。

· 设计元数据:存储库包含 InfoSphere DataStage and QualityStage Designer 和 IBM InfoSphere Information Analyzer 创建的设计时元数据。

stage构建和集成定制:

· 包装的 stage:能够并行地运行现有的顺序程序。

· 构建 stage:能够编写 C 表达式,通过它们自动地生成并行的定制 stage。

· 定制的 stage:为开发复杂的可扩展的 stage 提供完整的 C++ API。

链接和容器:

· 共享的:可重用的作业元素,通常由许多 stage 和链接组成。

· 本地的:在一个作业内创建且只能由此作业使用的元素。在作业图窗口的选项卡式页面中编辑本地容器,可以用它“清理”作业图,隔离流的一些区域。

改进作业的性能:

· 转换作业以使用大批量临时表:这会改进处理大量数据时的性能。可以转换其模式属性包含大批量预备的任何目标连接器,从而把大量数据插入目标数据库中的临时预备表中。通过添加后期处理 SQL 把数据从预备表转移到真正的目标表中。如果希望根据真正的目标表在另一个目标数据库实例中创建预备表,那么可以在 InfoSphere DataStage Balanced Optimization 工具中的一个属性中指定此实例。

· 在数据目标中执行处理、联结和查找:把尽可能多的作业工作放到目标数据库中执行,包括利用目标数据库中已经存在的查找或联结源表。还可以实现把大量数据插入预备表中。如果放到目标数据库中执行的工作涉及数据缩减(例如,作业包含 Aggregator stage 或带约束表达式的 Transformer stage),那么也可以选择在数据源中执行数据缩减。

· 在数据源中执行数据缩减:如果作业中有 Aggregator stage、包含会排除许多行的约束的 Transformer stage 或 Sort stage,这种优化会改进性能。这种优化把尽可能多的处理放在数据源连接器中执行。

· 在数据源中执行联结和查找:这种优化把涉及相同数据库服务器中的数据的 Join 和 Lookup stage 放在源数据库中执行。这种优化还可以避免 Join stage 经常隐式执行的额外排序。

· 在源数据库、Information Server 引擎和目标数据库之间平衡工作量:这种优化把尽可能多的工作放在目标数据库中执行,然后把剩下的工作尽可能放在源数据库中执行,最后余下的工作留在作业中。

· 把所有工作放在数据库中执行:如果作业使用的所有数据都在相同的数据库上,而且作业中的所有处理都可以在目标数据库中执行,那么可以避免所有数据库 I/O,让所有处理作为 SQL 在目标数据库中执行。

2 BI工具 COGNOS

Cognos Business Intelligence 10.1是IBM 商业智能的旗舰产品,是基于SOA架构的商业智能平台,它采用统一的元数据管理,拥有统一的架构和服务,通过统一的WEB界面,向用户提供各种类型的BI应用,包括:即席查询报表、仪表盘、记分卡、分析、事件管理、移动终端展现等,可以完全满足企业对商业智能和绩效管理方面的需求。

1.1.2.1 相关技术点实现

· Cognos通过纯web的方式提供了所有的BI功能(即席查询、专业报表、多维分析、仪表盘、记分卡等功能的),在WEB上使用这些功能,不需要下载任何插件。

· Cognos支持移动终端设备展现,支持iphone, ipad, windows mobile, symbian,blackberry等移动平台。

· Cognos FrameWork Manger可以为其它元数据管理软件提供符合CWM标准的元数据,便进行企业元数据的统一管理和维护。

· Cognos提供的企业级OLAP服务器,将从各类数据源(数据库、数据仓库、平面文件)中精心筛选出来的数据创建成称为PowerCubes的多维数据立方体。立方体是按探察业务的OLAP多维因素分析模型的设计创建,通过对多维数据立方体的OLAP分析,可以辨明趋势、跟踪业务运作、创建高效的统计汇总报表。

· Cognos的群集是一个全部激活的对等网络,系统是作为一个统一的逻辑平台共同承担负载。集群内任意一台机器down机都不会对整个系统产生影响,作业会自动的从故障服务器转移到正常服务器继续执行,Cognos不仅能在相同的操作系统间配置集群,还能跨系统配置集群。 例如:Cognos可以在windows和Unix、Linux之间配置集群,这样能够充分利用资源。

· BI平台的各种数据源(包括关系型数据库、多维数据源、企业级应用比如EPR的数据源等),Cognos采用开发式的数据访问,能够访问当前市面上几乎所有的关系型数据库、ERP系统的数据源、OLAP数据源等。

· Cognos Analysis Studio的多维分析功能全面支持MOLAP和ROLAP,不管是多维立方体还是关系型数据库,都可以进行多维分析。只需要在Web界面中通过简单的鼠标拖拽等操作,就可以进行各种OLAP分析,如上钻,下钻,切片,旋转,切块等,同时Cognos支持进行混合粒度的分析,支持自定义子集,支持混合维度的分析,支持多维立方体之间的相互钻取,多维立方体和关系型数据库之间的钻取,能够使用用户从宏观到微观的决策思路和过程。

· Cognos可以注释实时报表并保存输出版本,当打印一个报表的PDF版本或是导出报表为PDF或Excel输出时,注释也会被包括在其中。

· Cognos能与MS OFFICE无缝融合,安装了Cognos的OFFICE组件之后,可以使用Excel、PowerPoint、Word访问报表,还可以创建报表 。

· Cognos 可以同时连接多数据源,甚至异构数据源,一个报表中可以分页设计,每页都可以进行多查询,每个查询可以连接多个数据源,从而使系统能够很好的应用在复杂环境中。

· Cognos可以在报表中插入各种HTML脚本,扩展报表功能。

· Cognos可以在Report Studio中开发复杂报表、固定报表、包含动态交互式离线报表Active Report。

· Cognos中包含统计分析、数据挖掘功能,并能够和主流数据挖掘工具如SPSS等无缝集成。

· Cognos Query Studio查询功能提供给自助式的即席查询功能,可以按照自己的需要通过鼠标拖拽的方式查询自己关心的内容,设置查询条件,设置过滤,定义格式,套用模版,通过自助式的查询,大大提高了用户得到个性化信息的速度。

· Cognos支持复杂的分析功能,支持维度中不同粒度的混合分析,支持不同维度的非平衡混合分析,支持不同层次维度节点之间的计算。

· Cognos可以封装到招标方的基于IBM的门户中进行统一展示,同时也可以发布到子企业符合组件应用的门户平台中。

2.1 性能点分析

· Cognos 具有强大的专业化的OLAP 数据引擎(OLAP 服务器),它同时支持MOLAP和ROLAP。

· Cognos的数据立方体采用专有的存储技术,能够保证在海量数据处理时占用很少的存储空间,一般能达到源数据规模的十分之一到十五分之一的压缩比率,这种高效的存储带来最大的好处就是允许以更多的角度分析更多的指标。

· Cognos同时还支持ROLAP,能够面向整个数据仓库进行OLAP分析。同时Cognos还提供了穿透钻取功能,能够从CUBE中无缝钻取到ROLAP的报表。

· Cognos具有处理大用户数和大数据量的数据访问分析能力,性能稳定,承载能力杰出,Cognos BI Server是企业级的BI服务器,采用了多线程支持、高效率的处理流程和优化的查询结构,能够高效地响应请求。

· Cognos 采用了SOA的体系架构,所有的功能模块在系统内都被定义为服务,这些服务都通过统一的BI BUS总线进行交互。这样的架构使得Cognos的部署非常灵活,可以采用分布式的部署或配置集群。

· 用户可以访问各种数据源,基于这些数据源制作报表、分析,数据源包括:DB2、Oracle、SQL Server、Teradata、Sybase和ODBC在内的多种关系型数据源。

· Cognos报表具有分类群发功能,能够同时以邮件的方式发布成百上千份的报表。此外,也能够非常方便的在WEB上制作报表、发布报表。企业内部和外部的所有类型无需经过培训都可以通过Web访问、察看、打印报表。

· Cognos采用开放式的管理方式,Cognos产品本身并不存储用户名密码,它把这部分功能开放出来由第三方认证服务器来完成,如LDAP Server、NTML、AD等。Cognos只管理用户组和角色,用户的认证由第三方认证服务器来完成。这样做的最大的优势就是Cognos能够非常方便的与其他系统完成单点登录(SSO)。如果没有第三方认证服务器,那么可以使用Cognos SDK API中的接口,通过简单的开发,就可以使用数据库中的用户名表进行验证。

· Cognos产品完全开放各类接口,可供开发者开发第三方应用。

· IBM Cognos 10提供动态报表功能Active Report. IBM Cognos Active Report 是离线的交互式报表,适用于各级业务人员使用,在无法访问企业内部网络和数据库的情况下仍然可以通过此类报表分析数据,获得有价值的信息。

· 全新的图形引擎,具有更美观的展现效果和更多的图形种类,同时Cognos10兼容Cognos8的图形引擎,升级后可以继续使用原有图形或转为新的图形。

· IBM Cognos Business Insight,基于网页的界面可以让你建立先进的交互式的仪表盘,来提供见解并使协同决策变得简单。

3 数据仓库产品IBM Infosphere Warehouse

IBM DB2 Warehouse是一个集成的数据仓库软件平台。DB2 Warehouse 提供了用于帮助数据仓库架构师和管理员有效地设计和维护企业数据仓库所需的工具和基础设施。DB2 Ware house 是适用于动态数据仓库解决方案的理想平台,因为它提供了远远超越传统数据仓库的强大功能,它的一些关键组件能够帮助您交付动态的业务洞察力,这些组件是完全集成到数据库仓库中的。

3.1 相关技术点

· 数据仓库引擎:IBM DB2 10 平台是 DB2 Warehouse 解决方案的基础。利用其具有强大可伸缩性且不共享的分布式架构,DB2 10 提供了高性能的混合工作负载查询处理(既可查询关系数据,也可以查询 XML 数据)。大量高级特性使 DB2 10 成为一个功能强大的动态数据仓库引擎,这些特性包括数据分区、多维集群以及物化查询表(MQT)。

· 建模和设计工具:DB2 Warehouse 包括基于 IBM Rational Data Architect 软件并且能与其进行互操作的建模和设计工具,从而支持用户对物理数据库模式进行设计、建模和实施逆向工程,它提供了一组完备的功能,包括对某个数据库或整个企业进行物理数据建模、模型验证、遵从性分析、影响分析以及变更管理。

· 仓库构建工具(嵌入式数据移动和转换):DB2 Warehouse 中包含一个用于数据仓库构建和管理的强大图形工具。该工具提供了一组数据流、控制和转换运算符,它们被编译到 SQL 中,专门针对 DB2 进行操作且可以在数据仓库中运行。该工具允许用户更有效地准备和填充数据仓库分析结构,以便进行数据挖掘、多维分析和嵌入式分析。

· OLAP 的立方体服务:DB2 Warehouse 包括 OLAP 的高级立方体服务,支持多维数据分析,从而允许您将多个业务变量链接到一起,以执行比以前更为深入的分析。特别地,DB2 Warehouse 立方体服务允许您采用直观的多维和分层导航的方式来分析业务数据,而无需从数据仓库中提取数据。

3.2 性能点分析

IBM DB2数据库采用业界领先的非共享体系结构,无论在单节点的SMP,还是集群环境下的MPP都相同。IBM DB2 UDB非共享体系结构的特点如下:

· 在数据库一级划分为多个分区,既数据库分区

· 数据库分区运行在各个节点上

· 分个数据库分区具有自己的资源 (Engine, LogMg., LockMg., Caches, etc.)

· 数据库协调所有分区进行并行处理

· 对用户和应用来看,是一个单独的系统

· 采用64位软件体系结构,支持主流Unix平台、Windows 平台 ,如IBM、HP、SUN 的硬件平台和其UNIX操作系统。

· DB2 UDB提供了先进的“哈希(HASH)算法”映射数据库的每一条记录到特定的数据库分区中。“哈希算法”使用表中的一列(或一组列)作为分区关键字,得到0至4095的数值。分区图定义了为4096个值中的每一个值分配的特定的数据库分区。

· DB2 UDB为数据存储提供了灵活的拓扑结构以达到高性能及高并行。其中每个数据库由一些数据库分区组成,每个数据库分区实际上是数据库的一个子集,它包含自己的用户数据,索引,交易日志及配置文件。

· 在数据库中,管理员需要定义节点组(Node Group),数据库分区所分布的节点集合。节点组能够跨越为该数据库设置的数据库分区的一部分或全部。在节点组中,还要定义表空间,以说明用来存储表数据及索引的容器(Container)(文件或设备)。在数据库分区中,如果为每个表空间定义多个容器,则数据库管理系统可以利用I/O的并行机制提高性能。

· 高性能,由于特定的记录在规定的节点进行存储和管理,应用可以通过找到记录的存放位置,然后将交易送到记录所在的节点。从而减少节点间的协调请求,从而保证高性能。

· 动态线性扩展,由于在非共享架构中,每个节点拥有和管理自己的资源,在性能无损前提下,支持1000个节点的动态扩展

IBM DB2数据库在数据库、表、同类型表数据3个层次科可以实现分区管理,以便于更有效的将任务并行处理,并最大限度的利用系统资源,从而达到最大的性能优势。

IBM DB2数据库采用非共享体系结构,使得IBM DB2数据库在SMP和MPP环境下,都可以在数据库层面上,包括数据库引擎、数据库资源、数据、日志、锁管理方面实现分区管理,从而实现高度的并行性和线型扩展能力。

针对大表数据,除数据库分区外,还可以针对数据范围进行分区,以便于更有效的利用I/O。

多维聚餐索引,在表内将相同类型的数据按块存储,并建立相应的块索引,与传统的行索引相比,可以对数据进行快速的按块操作,使I/O更加有效。

DB2 UDB引擎中包含大量提高数据库性能的独特设计,并且大多数这些关键技术是DB2 UDB独有的或在业界领先的。这些独到的技术包括:

· 基于成本优化——DB2 UDB优化器自动根据不同查询路径的成本决定选择哪一个查询路径,消除了程序员的主观因素,提高开发效率、减少了系统维护工作量。

· SQL重写——自动将SQL语句改写成为能够利用优化器所有优化方法的语法,从而消除开发团队不同程序员之间代码效率的差异,且适合图形化工具或者开发框架生成的SQL。查询重写提高了开发效率,并能提高运行速度。

· 静态SQL——在应用程序开发阶段完成SQL语句的编译、优化功能,在程序执行时将直接根据预先生成好的执行计划执行,提高了执行速度。

DB2 10 通过自适应自调优内存来保护宝贵的 IT 工时,超越了以前版本的动态配置甚至自动化系统建议。自适应自调优内存管理通过自动设置内存配置参数的值和调整缓冲池的大小,简化了内存配置任务。当启用时,该内存调优工具可以在几个内存消耗者之间动态分布可用的内存资源,包括分类、包缓存和锁列表区域以及缓冲池。这将提供一个动态的并能响应工作负载特点重大变化的出色配置,从而改进了性能。

DB2 UDB的自主管理和资源调优(SMART)功能能够使DB2 UDB自动监控数据库系统的运行状况,并试图自动调整数据库运行时的参数,达到提高系统运行效率的功能。DB2 UDB的SMART技术包括:方便的安装过程、健康中心、自动性能调优命令、自动参数设置助理、索引/MDC/MQT创建助理、自动收集统计信息及确定那些数据库对象需要收集统计信息、自动调度备份等。

DB2支持适应性、自调式内存分配,通过不断更新配置参数、调整缓冲池大小和动态分配可用的内存资源,帮助用户简化或排除DB2服务器的配置工作。

支持自动存储支持,可以自动扩充磁盘和文件系统中数据库的大小,现在可用于多分区数据库。支持自动统计数据收集,创建新数据库时会自动启动。能根据DB2数据库系统的环境特点,自动配置prefetchers进程与页清洁器。支持面向自动表格与索引重组的新策略选项,为数据库管理员提供更多管理表格与索引重组的功能。

此外,DB2 还提供了大量命令行命令和图形化管理工具帮助数据库管理员进行数据库管理。

4 数据实时复制工具InfoSphere Change Data Capture

利用实时数据复制功能支持数据迁移、应用程序整合、数据同步、动态仓库、MDM、SOA、业务分析和 ETL 或数据质量流程等。

4.1 相关技术点

· 灵活的实施支持整个企业范围内数据传递的单向、双向、多对一和一对多数据交付。

· 基于日志的变更数据捕获(CDC)技术,可以实时复制任务关键型数据事件,同时又不会影响系统性能。

· 易于使用的图形化用户界面 (GUI),支持快速的数据集成流程部署。

· 将实时数据事务打包进 XML 文档,并与消息传递中间件(如 WebSphere MQ)相互传递,从而支持面向服务的架构 (SOA)。

· 与 IBM InfoSphere DataStage直接集成,确保事务完整性,在不需要试运行的前提下向 ETL 流程提供实时数据源。

· 全面的监视功能提高复制环境的可视化水平,以加速解决问题。

· 针对企业数据量的低延迟、高吞吐量的数据复制,同时维持事务的完整性和一致性。

· 与 InfoSphere Change Data Capture for z/OS 相结合,与 DB2 for z/OS 之间复制异构数据。

· 支持的操作系统:AIX、HP-UX、i 系列、Linux、其他操作系统、Solaris (Sun microsystems)、Windows、z/OS。

· 支持的数据库:DB2 pureScale 9.8、DB2 for Linux Unix Windows, z/OS, and i、Informix、Oracle 数据库、Sybase 数据库、Microsoft SQL Server 和 Teradata。

4.2 性能点分析

· 高性能:IBM InfoSphere Change Data Capture 可以应付数据量很大的复制环境,减少对源数据库的性能影响。使用基于数据库日志的更改数据捕捉,可以处理不断增加的数据量,按企业需要的节奏提供数据集成。

· 基于日志的变化数据捕捉:无论是定期还是实时地集成数据,只从源系统捕捉更改过的数据并把它们传输到目标系统。IBM InfoSphere Change Data Capture 并不直接对数据库执行查询,而是从数据库日志中捕捉更改过的数据。

· 运营效率:IBM InfoSphere Change Data Capture 可以消除重复数据传输并节省网络带宽,从而帮助提高运营效率并节约时间和资源。通过访问日志中的数据,IBM InfoSphere Change Data Capture 帮助减少对重要应用程序的性能影响。

· 数据完整性:通过在源和目标之间同步变化信息实现数据交付。在目标上,按照与源系统上相同的次序应用事务,从而确保事务完整性。

· 容易使用:直观的用户界面整合了复制环境的配置和监视。

· 无需编程:不需要编程,能够把精力投入价值更高的目标。可以使用已有的系统并支持跨平台集成数据,只需对现有的环境做很少的修改。

· 无需编程的数据集成:IBM InfoSphere Change Data Capture 跨各种操作平台为 DB2、Oracle、Sybase 和 Informix Dynamic Server 提供开箱即用的无需编程的数据集成。

· 数据丰富的业务事件:IBM InfoSphere Change Data Capture 支持与消息队列集成,从而向业务应用程序提供数据丰富的业务事件。

· 增强的数据集成:IBM InfoSphere Change Data Capture 支持与平面文件集成,有助于跨系统整合数据。

· 实时地捕捉更改,保证信息总是最新的。因此,信息总是最新的而不是上一次执行批处理时的当前数据。

· 对于生产系统的性能影响极小。CDC 读取数据库日志文件,而不是直接查询数据库,它对于重要的生产系统影响极小。

· 不需要批处理时间窗。它连续地捕捉、转换和应用更改,不需要为了提取数据而关闭系统。

· 能够轻松地扩展以处理非常大的数据库和大量事务。只复制更改而不是更改过的表中的所有数据,由于转移的数据更少,这会显著提高可伸缩性。

· 不需要修改源系统。因为 CDC 只读取日志文件,所以不需要修改源数据库,但是可以探测到所有事务,包括关于更改的描述信息(用户、应用程序、时间等等)。

· 记录对系统的所有更改,而不只是这些更改的最终结果。为了满足审计和遵从性需求,记录所有插入、更新和删除操作,而不只是这些操作的最终结果。

· 可以补充 ETL 工具。通过实时的 CDC 技术直接访问数据库日志中的数据并从运营性数据库复制数据,而不需要批处理时间窗或中断重要的系统,然后使用 ETL 工具把数据装载进运营性数据存储,从而向数据仓库或其他应用程序提供数据。