如何将数据仓库迁移到阿里云 AnalyticDB for PostgreSQL

阿里云AnalyticDB for PostgreSQL(以下简称 ADB PG,即原HybridDB for PostgreSQL)为基于PostgreSQL内核的MPP架构的实时数据仓库服务,可以支持复杂ETL任务,也支持高性能在线查询,同阿里云生态紧密结合。AWS 的Redshift同样为基于PostgreSQL内核引擎的MPP数据仓库服务器,在AWS被广泛作为数据仓库使用。ADB PG和Redshift从架构到语法上同Redshift高度兼容。本文重点介绍两个数仓平台如何进行迁移。

产品架构比较

阿里云AnalyticDB for PostgreSQL最新版本 6.0 基于PostgreSQL 9.4构建,Redshift 基于PostgreSQL 8.2版本,相对ADB PG的功能要更加全面,且全面兼容PostgreSQL生态的工具,包括PostGIS,MADlib等扩展分析。Redshift 只支持列存表,而不支持PostgreSQL原生的行存表,而ADB PG即保留了PostgreSQL行存表支持,实现高吞吐的数据更新操作,也支持面向OLAP大表聚合操作的列存表。

如何将数据仓库迁移到阿里云 AnalyticDB for PostgreSQL

AnalyticDB for PG 与 Redshift的比较

功能项目ADB PGRedshiftPostgreSQL版本PG 9.4PG 8.2SQL语法兼容PG,部分兼容Oracle语法兼容PG事务支持支持行存储支持不支持列存储支持支持表分区支持支持云存储支持OSS数据在线访问支持S3数据在线访问多模分析PostGIS/MADLib/向量检索

关键语法比较及迁移

阿里云AnalyticDB for PostgreSQL与AWS Redshift都基于单机PostgreSQL内核引擎,故语法高度兼容,部分语法描述略有差异如下。

DDL建表语法差异

语法RedshiftADB PG表Hash分布DISTKEY(col)DISTRIBUTED BY(col)表随机分布DISTSTYLE EVENDISTRIBUTED RANDOMLY表复制分布DISTSTYLE ALLDISTRIBUTED REPLICATED数据编码压缩AZ64/BYTEDICT/DELTA/LZO/RAW/RUNLENGTH/ZSTD(COMPRESSTYPE={ZStD/ZLIB/QUICKLZ/RLE_TYPE/NONE})列存排序键SORTKEY (col)with(APPENDONLY=true,ORIENTATION=column)sortkey (volume)系统函数PG8.2及部分自定义函数PG9.4及部分自定义函数

语法指南

ADB PG建表指南
Redshift建表指南

DDL转换示例1

Redshift 建表语句,包含分布键DISTKEY和排序列:

<code>CREATE TABLE schema1.table1(    filed1 VARCHAR(100) ENCODE lzo,    filed2 INTEGER DISTKEY,    filed3 INTEGER,    filed4 BIGINT ENCODE lzo,    filed5 INTEGER,)INTERLEAVED SORTKEY (    filed1,    filed2);/<code>

ADB PG建表语句:

<code>CREATE TABLE schema1.table1(    filed1 VARCHAR(100) ,    filed3 INTEGER,    filed5 INTEGER)WITH(APPENDONLY=true,ORIENTATION=column,COMPRESSTYPE=zlib)DISTRIBUTED BY (filed2)SORTKEY(    filed1,    filed2)            /<code>

DDL转换示例2

Redshift 建表语句,包含ENCODE和SORTKEY选项:

<code>CREATE TABLE schema2.table2(    filed1 VARCHAR(50) ENCODE lzo,    filed2 VARCHAR(50) ENCODE lzo,    filed3 VARCHAR(20) ENCODE lzo,)DISTSTYLE EVENINTERLEAVED SORTKEY(    filed1);/<code>

ADB PG建表语句:

<code>CREATE TABLE schema2.table2(    filed1 VARCHAR(50),    filed2 VARCHAR(50),    filed3 VARCHAR(20))WITH(APPENDONLY=true, ORIENTATION=column, COMPRESSTYPE=zlib)DISTRIBUTED randomlySORTKEY(    filed1);        /<code>

数据迁移

Redshift和ADB PG均支持从云存储的告诉并行数据导入和导出。从Redshift迁移数据到AnalyticDB for PostgreSQL包含如下步骤:

  1. 资源和环境准备,执行操作前需提前准备Amazon Redshift、Amazon S3(Amazon Simple Storage Service)、AnalyticDB for PostgreSQL和阿里云对象存储服务(OSS)的相关资源。
  2. 将Redshift的数据导入到Amazon S3中。
  3. 使用OSSImport将Amazon S3中CSV格式的数据文件导入到OSS。
  4. 在目标AnalyticDB for PostgreSQL中创建和源Redshift对应的对象,包括模式(Schema)、表(Table)、视图(View)和函数(Function)。
  5. 使用OSS外部表将数据导入到AnalyticDB for PostgreSQL。

整体迁移路径如下:

如何将数据仓库迁移到阿里云 AnalyticDB for PostgreSQL


分享到:


相關文章: