一文搞懂 FlinkX，基于flink的分布式数据同步工具_ _ 頭條網

1 什么是FlinkX

FlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线数据同步框架，实现了多种异构数据源之间高效的数据迁移。

不同的数据源头被抽象成不同的Reader插件，不同的数据目标被抽象成不同的Writer插件。理论上，FlinkX框架可以支持任意数据源类型的数据同步工作。作为一套生态系统，每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

2 工作原理

在底层实现上，FlinkX依赖Flink，数据同步任务会被翻译成StreamGraph在Flink上执行，工作原理如下图：

3 快速起步

3.1 运行模式

单机模式：对应Flink集群的单机模式standalone模式：对应Flink集群的分布式模式yarn模式：对应Flink集群的yarn模式

3.2 执行环境

Java: JDK8及以上Flink集群: 1.4及以上（单机模式不需要安装Flink集群）操作系统：理论上不限，但是目前只编写了shell启动脚本，用户可以可以参考shell脚本编写适合特定操作系统的启动脚本。

3.3 打包

进入项目根目录，使用maven打包：

<code>mvn clean package -Dmaven.test.skip/<code>

打包结束后，项目根目录下会产生bin目录和plugins目录，其中bin目录包含FlinkX的启动脚本，plugins目录下存放编译好的数据同步插件包

3.4 启动

3.4.1 命令行参数选项

model描述：执行模式，也就是flink集群的工作模式local: 本地模式standalone: 独立部署模式的flink集群yarn: yarn模式的flink集群，需要提前在yarn上启动一个flink session，使用默认名称"Flink session cluster"必选：否默认值：localjob描述：数据同步任务描述文件的存放路径；该描述文件中使用json字符串存放任务信息。必选：是默认值：无pluginRoot描述：插件根目录地址，也就是打包后产生的pluginRoot目录。必选：是默认值：无flinkconf描述：flink配置文件所在的目录（单机模式下不需要），如/hadoop/flink-1.4.0/conf必选：否默认值：无yarnconf描述：Hadoop配置文件（包括hdfs和yarn）所在的目录（单机模式下不需要），如/hadoop/etc/hadoop必选：否默认值：无

3.4.2 启动数据同步任务

以本地模式启动数据同步任务

<code>bin/flinkx -mode local -job /Users/softfly/company/flink-data-transfer/jobs/task_to_run.json -pluginRoot /Users/softfly/company/flink-data-transfer/plugins -confProp "{"flink.checkpoint.interval":60000,"flink.checkpoint.stateBackend":"/flink_checkpoint/"}" -s /flink_checkpoint/0481473685a8e7d22e7bd079d6e5c08c/chk-*/<code>以standalone模式启动数据同步任务

<code>bin/flinkx -mode standalone -job /Users/softfly/company/flink-data-transfer/jobs/oracle_to_oracle.json -pluginRoot /Users/softfly/company/flink-data-transfer/plugins -flinkconf /hadoop/flink-1.4.0/conf -confProp "{"flink.checkpoint.interval":60000,"flink.checkpoint.stateBackend":"/flink_checkpoint/"}" -s /flink_checkpoint/0481473685a8e7d22e7bd079d6e5c08c/chk-*/<code>以yarn模式启动数据同步任务

<code>bin/flinkx -mode yarn -job /Users/softfly/company/flinkx/jobs/mysql_to_mysql.json -pluginRoot /opt/dtstack/flinkplugin/syncplugin -flinkconf /opt/dtstack/myconf/conf -yarnconf /opt/dtstack/myconf/hadoop -confProp "{"flink.checkpoint.interval":60000,"flink.checkpoint.stateBackend":"/flink_checkpoint/"}" -s /flink_checkpoint/0481473685a8e7d22e7bd079d6e5c08c/chk-*/<code>

4 数据同步任务模版

从最高空俯视，一个数据同步的构成很简单，如下：

<code>{ "job": { "setting": {...}, "content": [...] } }/<code>

数据同步任务包括一个job元素，而这个元素包括setting和content两部分。

setting: 用于配置限速、错误控制和脏数据管理content: 用于配置具体任务信息，包括从哪里来（Reader插件信息），到哪里去（Writer插件信息）

4.1 setting

<code> "setting": { "speed": {...}, "errorLimit": {...}, "dirty": {...} }/<code>

setting包括speed、errorLimit和dirty三部分，分别描述限速、错误控制和脏数据管理的配置信息

4.1.1 speed

<code> "speed": { "channel": 3, "bytes": 0 }/<code>channel: 任务并发数bytes: 每秒字节数，默认为 Long.MAX_VALUE

4.1.2 errorLimit

<code> "errorLimit": { "record": 10000, "percentage": 100 }/<code>record: 出错记录数超过record设置的条数时，任务标记为失败percentage: 当出错记录数超过percentage百分数时，任务标记为失败

4.1.3 dirty

<code> "dirty": { "path": "/tmp", "hadoopConfig": { "fs.default.name": "hdfs://ns1", "dfs.nameservices": "ns1", "dfs.ha.namenodes.ns1": "nn1,nn2", "dfs.namenode.rpc-address.ns1.nn1": "node02:9000", "dfs.namenode.rpc-address.ns1.nn2": "node03:9000", "dfs.ha.automatic-failover.enabled": "true", "dfs.client.failover.proxy.provider.ns1": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider", "fs.hdfs.impl.disable.cache": "true" } }/<code>path: 脏数据存放路径hadoopConfig: 脏数据存放路径对应hdfs的配置信息(hdfs高可用配置)

4.1.4 restore

<code>"restore": { "isRestore": false, "restoreColumnName": "", "restoreColumnIndex": 0 }/<code>

restore配置请参考断点续传

4.2 content

<code> "content": [ { "reader": { "name": "...", "parameter": { ... } }, "writer": { "name": "...", "parameter": { ... } } } ]/<code>reader: 用于读取数据的插件的信息writer: 用于写入数据的插件的信息

reader和writer包括name和parameter，分别表示插件名称和插件参数

4.3 数据同步任务例子

详见flinkx-examples子工程

代码地址：https://github.com/DTStack/flinkx

我们已经开始应用了，小伙伴们赶紧来尝鲜吧！

1 什么是FlinkX

2 工作原理

3 快速起步

3.1 运行模式

3.2 执行环境

3.3 打包

3.4 启动

3.4.1 命令行参数选项

3.4.2 启动数据同步任务

4 数据同步任务模版

4.1 setting

4.1.1 speed

4.1.2 errorLimit

4.1.3 dirty

4.1.4 restore

4.2 content

4.3 数据同步任务例子

相關文章:

ISO14001-2015环境因素识别与评价培训资料（提供下载）

Flink从入门到放弃(九)-window&time概念理解

Flink SQL 如何实现数据流的 Join？

总算搞懂交强险，符合这5个条件的车主，一分都不赔

三种题型的复习法门，教你如何在信息系统项目管理师考试一招制敌

互联网运营到底是个什么鬼？此文总算搞懂了！

网感，在网络世界受人欢迎的基本能力

搞懂 XML 解析，徒手造 WEB 框架

《猎狐》关于股市，有几句话想说

互联网时代的广告投放，这些知识你搞懂了吗？

用英文说：石头剪刀布

硬核！一文学完Flink流计算常用算子（Flink算子大全）

创业如何才能成功？其实搞懂一个字，你就离成功很近了

Flink—CentOS7.5搭建Flink1.6.1分布式集群

字节跳动 Flink 单点恢复功能实践

Flink科普系列之State（状态）

水脏洞是啥洞府？与水帘洞有何不同？吴承恩：搞懂它就搞懂了西游

美团点评基于 Flink 的实时数仓平台实践

Flink中parallelism并行度和slot槽位的理解

英雄联盟输的莫名其妙？因为你没搞懂什么是核心英雄

简单搞懂央行数字货币

数学单科150、总分年级第一，自述：擅长计算，坚持2点、不做1事

淀粉和生粉就一字之差，用途却截然不同，搞懂直接转身变大厨！

前段抢购银行纸原油的二傻子们，这回知道怕了吗

初中物理这20个易错点不搞懂, 别想拿高分! 附点拨与专练

浅谈Doris和Flink在广告实时数仓中的实践

后端程序员必备技术栈，如何选择合适的消息队列

如何学会丰田工作方法？搞懂问题解决的8步骤是关键

行政官司不好打？律师告诉你真实原因

大数据框架对比：Hadoop、Storm、Samza、Spark 和 Flink[转]

大数据必须了解的Flink实时数据架构

搞懂了，ETC电子发票这样申请

唯品会实时平台架构-Flink、Spark、Storm

Flink 中的应用部署：当前状态与新应用模式

什么是诡异的电子双缝实验?爱因斯坦用了一辈子都没有解开的谜。

「糕友提问」 红蓝方优先选边权是怎么决定的？

疫情下20个重要问答，搞懂你最关心的员工返岗问题！

为什么StreamSQL从Apache Kafka迁移到Apache Pulsar

自从做了销售每天工作就是朋友圈别人点赞！工作改变人

揭秘原油宝交易原理！你以为买进了原油期货，其实你从未走出银行

搞懂“内擫”与“外拓”，书法更高古

Spark Streaming，Flink，Storm，Kafka和Samza：选择流处理框架

高三考生，应当如何备战高考

老玩家谈籽玉原石如何捡漏

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

「糕友提问」红蓝方优先选边权是怎么决定的？

应急科普丨“五一” 期间气温回升谨防森林火灾隐患