一文搞懂 FlinkX，基於flink的分佈式數據同步工具_ _ 頭條網

1 什麼是FlinkX

FlinkX是在是袋鼠雲內部廣泛使用的基於flink的分佈式離線數據同步框架，實現了多種異構數據源之間高效的數據遷移。

不同的數據源頭被抽象成不同的Reader插件，不同的數據目標被抽象成不同的Writer插件。理論上，FlinkX框架可以支持任意數據源類型的數據同步工作。作為一套生態系統，每接入一套新數據源該新加入的數據源即可實現和現有的數據源互通。

2 工作原理

在底層實現上，FlinkX依賴Flink，數據同步任務會被翻譯成StreamGraph在Flink上執行，工作原理如下圖：

3 快速起步

3.1 運行模式

單機模式：對應Flink集群的單機模式standalone模式：對應Flink集群的分佈式模式yarn模式：對應Flink集群的yarn模式

3.2 執行環境

Java: JDK8及以上Flink集群: 1.4及以上（單機模式不需要安裝Flink集群）操作系統：理論上不限，但是目前只編寫了shell啟動腳本，用戶可以可以參考shell腳本編寫適合特定操作系統的啟動腳本。

3.3 打包

進入項目根目錄，使用maven打包：

<code>mvn clean package -Dmaven.test.skip/<code>

打包結束後，項目根目錄下會產生bin目錄和plugins目錄，其中bin目錄包含FlinkX的啟動腳本，plugins目錄下存放編譯好的數據同步插件包

3.4 啟動

3.4.1 命令行參數選項

model描述：執行模式，也就是flink集群的工作模式local: 本地模式standalone: 獨立部署模式的flink集群yarn: yarn模式的flink集群，需要提前在yarn上啟動一個flink session，使用默認名稱"Flink session cluster"必選：否默認值：localjob描述：數據同步任務描述文件的存放路徑；該描述文件中使用json字符串存放任務信息。必選：是默認值：無pluginRoot描述：插件根目錄地址，也就是打包後產生的pluginRoot目錄。必選：是默認值：無flinkconf描述：flink配置文件所在的目錄（單機模式下不需要），如/hadoop/flink-1.4.0/conf必選：否默認值：無yarnconf描述：Hadoop配置文件（包括hdfs和yarn）所在的目錄（單機模式下不需要），如/hadoop/etc/hadoop必選：否默認值：無

3.4.2 啟動數據同步任務

以本地模式啟動數據同步任務

<code>bin/flinkx -mode local -job /Users/softfly/company/flink-data-transfer/jobs/task_to_run.json -pluginRoot /Users/softfly/company/flink-data-transfer/plugins -confProp "{"flink.checkpoint.interval":60000,"flink.checkpoint.stateBackend":"/flink_checkpoint/"}" -s /flink_checkpoint/0481473685a8e7d22e7bd079d6e5c08c/chk-*/<code>以standalone模式啟動數據同步任務

<code>bin/flinkx -mode standalone -job /Users/softfly/company/flink-data-transfer/jobs/oracle_to_oracle.json -pluginRoot /Users/softfly/company/flink-data-transfer/plugins -flinkconf /hadoop/flink-1.4.0/conf -confProp "{"flink.checkpoint.interval":60000,"flink.checkpoint.stateBackend":"/flink_checkpoint/"}" -s /flink_checkpoint/0481473685a8e7d22e7bd079d6e5c08c/chk-*/<code>以yarn模式啟動數據同步任務

<code>bin/flinkx -mode yarn -job /Users/softfly/company/flinkx/jobs/mysql_to_mysql.json -pluginRoot /opt/dtstack/flinkplugin/syncplugin -flinkconf /opt/dtstack/myconf/conf -yarnconf /opt/dtstack/myconf/hadoop -confProp "{"flink.checkpoint.interval":60000,"flink.checkpoint.stateBackend":"/flink_checkpoint/"}" -s /flink_checkpoint/0481473685a8e7d22e7bd079d6e5c08c/chk-*/<code>

4 數據同步任務模版

從最高空俯視，一個數據同步的構成很簡單，如下：

<code>{ "job": { "setting": {...}, "content": [...] } }/<code>

數據同步任務包括一個job元素，而這個元素包括setting和content兩部分。

setting: 用於配置限速、錯誤控制和髒數據管理content: 用於配置具體任務信息，包括從哪裡來（Reader插件信息），到哪裡去（Writer插件信息）

4.1 setting

<code> "setting": { "speed": {...}, "errorLimit": {...}, "dirty": {...} }/<code>

setting包括speed、errorLimit和dirty三部分，分別描述限速、錯誤控制和髒數據管理的配置信息

4.1.1 speed

<code> "speed": { "channel": 3, "bytes": 0 }/<code>channel: 任務併發數bytes: 每秒字節數，默認為 Long.MAX_VALUE

4.1.2 errorLimit

<code> "errorLimit": { "record": 10000, "percentage": 100 }/<code>record: 出錯記錄數超過record設置的條數時，任務標記為失敗percentage: 當出錯記錄數超過percentage百分數時，任務標記為失敗

4.1.3 dirty

<code> "dirty": { "path": "/tmp", "hadoopConfig": { "fs.default.name": "hdfs://ns1", "dfs.nameservices": "ns1", "dfs.ha.namenodes.ns1": "nn1,nn2", "dfs.namenode.rpc-address.ns1.nn1": "node02:9000", "dfs.namenode.rpc-address.ns1.nn2": "node03:9000", "dfs.ha.automatic-failover.enabled": "true", "dfs.client.failover.proxy.provider.ns1": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider", "fs.hdfs.impl.disable.cache": "true" } }/<code>path: 髒數據存放路徑hadoopConfig: 髒數據存放路徑對應hdfs的配置信息(hdfs高可用配置)

4.1.4 restore

<code>"restore": { "isRestore": false, "restoreColumnName": "", "restoreColumnIndex": 0 }/<code>

restore配置請參考斷點續傳

4.2 content

<code> "content": [ { "reader": { "name": "...", "parameter": { ... } }, "writer": { "name": "...", "parameter": { ... } } } ]/<code>reader: 用於讀取數據的插件的信息writer: 用於寫入數據的插件的信息

reader和writer包括name和parameter，分別表示插件名稱和插件參數

4.3 數據同步任務例子

詳見flinkx-examples子工程

代碼地址：https://github.com/DTStack/flinkx

我們已經開始應用了，小夥伴們趕緊來嚐鮮吧！

1 什麼是FlinkX

2 工作原理

3 快速起步

3.1 運行模式

3.2 執行環境

3.3 打包

3.4 啟動

3.4.1 命令行參數選項

3.4.2 啟動數據同步任務

4 數據同步任務模版

4.1 setting

4.1.1 speed

4.1.2 errorLimit

4.1.3 dirty

4.1.4 restore

4.2 content

4.3 數據同步任務例子

相關文章:

ISO14001-2015環境因素識別與評價培訓資料（提供下載）

Flink從入門到放棄(九)-window&time概念理解

Flink SQL 如何實現數據流的 Join？

總算搞懂交強險，符合這5個條件的車主，一分都不賠

三種題型的複習法門，教你如何在信息系統項目管理師考試一招制敵

互聯網運營到底是個什麼鬼？此文總算搞懂了！

網感，在網絡世界受人歡迎的基本能力

搞懂 XML 解析，徒手造 WEB 框架

《獵狐》關於股市，有幾句話想說

互聯網時代的廣告投放，這些知識你搞懂了嗎？

用英文說：石頭剪刀布

硬核！一文學完Flink流計算常用算子（Flink算子大全）

創業如何才能成功？其實搞懂一個字，你就離成功很近了

Flink—CentOS7.5搭建Flink1.6.1分佈式集群

字節跳動 Flink 單點恢復功能實踐

Flink科普系列之State（狀態）

水髒洞是啥洞府？與水簾洞有何不同？吳承恩：搞懂它就搞懂了西遊

美團點評基於 Flink 的實時數倉平臺實踐

Flink中parallelism並行度和slot槽位的理解

英雄聯盟輸的莫名其妙？因為你沒搞懂什麼是核心英雄

簡單搞懂央行數字貨幣

數學單科150、總分年級第一，自述：擅長計算，堅持2點、不做1事

澱粉和生粉就一字之差，用途卻截然不同，搞懂直接轉身變大廚！

前段搶購銀行紙原油的二傻子們，這回知道怕了嗎

初中物理這20個易錯點不搞懂, 別想拿高分! 附點撥與專練

淺談Doris和Flink在廣告實時數倉中的實踐

後端程序員必備技術棧，如何選擇合適的消息隊列

如何學會豐田工作方法？搞懂問題解決的8步驟是關鍵

行政官司不好打？律師告訴你真實原因

大數據框架對比：Hadoop、Storm、Samza、Spark 和 Flink[轉]

大數據必須瞭解的Flink實時數據架構

搞懂了，ETC電子發票這樣申請

唯品會實時平臺架構-Flink、Spark、Storm

Flink 中的應用部署：當前狀態與新應用模式

什麼是詭異的電子雙縫實驗?愛因斯坦用了一輩子都沒有解開的謎。

「糕友提問」 紅藍方優先選邊權是怎麼決定的？

疫情下20個重要問答，搞懂你最關心的員工返崗問題！

為什麼StreamSQL從Apache Kafka遷移到Apache Pulsar

自從做了銷售每天工作就是朋友圈別人點贊！工作改變人

揭祕原油寶交易原理！你以為買進了原油期貨，其實你從未走出銀行

搞懂“內擫”與“外拓”，書法更高古

Spark Streaming，Flink，Storm，Kafka和Samza：選擇流處理框架

高三考生，應當如何備戰高考

老玩家談籽玉原石如何撿漏

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

「糕友提問」紅藍方優先選邊權是怎麼決定的？

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患