Flink 基礎學習(二)搭建一個 "Hello World" 程序

2020-01-08 14:39:13 科技伍小黑

在學習技術時，總會有一個簡單程序 Demo 帶著我們入門，所以參考著官網例子，帶大家快速熟悉 Flink 的 Hello World~

說明一下，項目運行的環境如下：

OS : Mac

Flink Version : 1.9

IDE : IDEA

Java Version : 1.8

下面來講下關於環境準備，如果是 Windows 的用戶，請參照每個步驟，找到適應自己的安裝 or 啟動方法。

1 環境準備

首先我們默認已經安裝了 Jdk 1.8 和編碼工具 IDEA，下面來講如何安裝 Flink 和建立腳手架。下面展示的項目代碼已經放入了 Github，可以下載進行本地運行

1.1 安裝 Flink

<code>$ brew install apache-flink
/<code>

檢查安裝是否成功以及版本號

<code>$ flink --version
Version: 1.9.0, Commit ID: 9c32ed9
/<code>

接著以單機集群模式啟動 Flink

<code>$ sh /usr/local/Cellar/apache-flink/1.9.0/libexec/bin/start-cluster.sh
Starting cluster.
Starting standalonesession daemon on host yejingqideMBP-c510.
Starting taskexecutor daemon on host yejingqideMBP-c510. 

/<code>

然後訪問 localhost:8081 監控界面（1.9 版本更新了 UI）：

1.2 創建項目

這裡推薦的是使用 maven 進行構建，在命令行中輸入如下內容(# 號後面是說明，請不要輸入）：

<code>$ mvn archetype:generate \\
    -DarchetypeGroupId=org.apache.flink \\               # flink 的 group.id
    -DarchetypeArtifactId=flink-quickstart-java \\       # flink 的 artifact.id
    -DarchetypeVersion=1.9.0 \\                          # flink 的 version，以上三個請不要修改，按照默認即可
    -DgroupId=wiki-edits \\                              # 項目的 group.id
    -DartifactId=wiki-edits \\                           # 項目的 artifact.id
    -Dversion=0.1 \\                                     # 項目的 version.id
    -Dpackage=wikiedits \\                               # 項目的基礎包名
    -DinteractiveMode=false                             # 是否需要和用戶交互以獲得輸入，由於上面已經自己寫了項目的參數，所以禁用了。反之請刪掉 上面項目的配置，將交互模式設為 true
/<code>

如果按照官方的例子填寫，那麼你將得到如下的項目結構：

<code>$ tree wiki-edits
wiki-edits/
├── pom.xml
└── src
    └── main
        ├── java
        │   └── wikiedits
        │       ├── BatchJob.java
        │       └── StreamingJob.java
        └── resources
            └── log4j.properties
/<code>

如果是自己自定義的，包結構會不一致，但是通過腳手架創立的，pom 文件中預置的依賴都將一致，引入了 Flink 基礎開發相關的 API，然後通過 IDEA 打開該項目目錄，就可以開始我們的 Hello world。

2 開始項目

首先交代一下待會的流程，編寫程序代碼，啟動 netcat 命令來監聽 9000 端口，啟動或提交 Flink 程序，最後監聽日誌輸出信息。

2.1 項目代碼

Demo 的代碼作用是監聽 netcat 輸入的字符，然後進行聚合操作，最後輸出字符統計

<code>public class SocketTextStreamWordCount {

    public static void main(String[] args) throws Exception {
        String hostName = "127.0.0.1";
        int port = 9000;
        // 設置運行環境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 獲取數據源
        DataStreamSource<string> stream = env.socketTextStream(hostName, port);
        // 計數
        SingleOutputStreamOperator<tuple2>> sum = stream
            .flatMap((new LineSplitter()))
            .keyBy(0)
            .sum(1);
        // 輸出
        sum.print();
        // 提交任務
        env.execute("Java Word from SocketTextStream Example"); 

    }

    public static final class LineSplitter implements FlatMapFunction<string>> {

        @Override
        public void flatMap(String s, Collector<tuple2>> collector) throws Exception {
            String[] tokens = s.toLowerCase().split("\\W+");
            for (String token : tokens) {
                if (token.length() > 0) {
                    collector.collect(new Tuple2<string>(token, 1));
                }
            }
        }
    }
}
/<string>/<tuple2>/<string>/<tuple2>/<string>/<code>

簡單說明一下，上面出現了 SocketTextStream 套接字字符 數據源（Source），接著是 算子（Operator）： FlatMap（一個輸入源，可以輸出零個或多個結果）、KeyBy（按照某字段或者 tuple 元組中某個下標進行分類）和 sum（跟翻譯一樣，就是進行聚合彙總），最後輸出

2.2 開啟 tcp 長鏈接

為了模擬流數據，我們造的場景是不斷往 9000 端口輸入字符，Flink 程序添加的數據源是 SocketTextStream （套接字字符流）。

在你的終端中輸入以下命令

<code>$ nc -l 9000
/<code>

有關 netcat 命令的用法，請看參考資料第二條，這裡的作用就是打開 TCP 長鏈接，監聽 9000 端口

2.3 啟動 Flink 程序

剛才第一個步驟中，已經編輯好了程序代碼，第二個步驟也已經啟動了一個 TCP 客戶端，啟動 Flink 程序有兩種方法：

2.3.1 本地調試

使用 IDEA 的好處很多，代碼補全，語法檢查和快捷鍵之類的。我經常使用的調試方法就是添加一個 psvm 的 main 方法，在裡面寫執行代碼，最後點擊綠色的啟動按鈕~

如果不需要調試，想直接看結果，選擇第一個 Run，但有時不確定代碼執行過程和出錯的具體原因，可以通過第二個選項 Debug 進行調試。

這是本地開發經常使用的方法，進行結果的驗證。

2.3.2 提交到 JobManager

前面我們啟動的是單機集群版，啟動了一個 JobManager 和 TaskWorker，打開的 localhost:8081 就是 JobManager 的監控面板，所以我們要通過下面的方式，將 Flink 程序提交到 JobManager。

這裡教一個簡單的方法，我們通過 mvn clean package 進行打包後，可以在 IDEA 集成的終端標籤欄下提交我們的程序：

由於每個人的絕對路徑都不一樣，所以我們通過 IDEA 的終端，它會自動定位到項目的路徑，然後執行時填寫相對路徑的 jar 包名字即可

<code>$ flink run -c cn.sevenyuan.wordcount.SocketTextStreamWordCount target/flink-quick-start-1.0-SNAPSHOT.jar
/<code>

-c 參數是指定運行的主程序入口，接著我們去查看監控面板，可以發現任務狀態已經處於監控中：

頂部信息講的是運行程序名字、時間、時間線、配置參數等信息，底下 Name 一欄，說明該程序邏輯步驟（讀取數據源，進行映射處理，使用 keyBy 和聚合運算，最後輸出到【打印 sink】）

2.4 輸入數據 & 驗證結果

前面驗證了程序正常啟動，接下來我們來驗證輸入和輸出

先來監聽輸出，進入 Flink 的日誌目錄，接著通過 tail 命令監聽任務執行者 TaskWorkder（默認會啟動一個任務執行者，所以編碼為 0）的日誌輸出

<code>$ usr/local/Cellar/apache-flink/1.9.0/libexec/log
$ tail -400f flink*-taskexecutor-0*.out

/<code>

接著，在 nc -l 9000 對應的終端窗口中輸入如下數據：

<code>$ nc -l 9000
hello world
test world
test hello
hello my world
/<code>

最後就能夠看到以下輸出結果：

<code>(hello,1)
(world,1) 

(test,1)
(world,2)
(test,2)
(hello,2)
(hello,3)
(my,1)
(world,3)
/<code>

每行字符以空格進行分割，然後分別進行彙總統計，得到的輸出結果一致。

3 擴展閱讀

如果你在官網閱覽，應該也曾看到過 TimeWindow 時間窗口的例子，下面是 Demo 代碼

<code>public class SocketWindowWordCount {

    public static void main(String[] args) throws Exception {

        // the port to connect to
        String hostName = "127.0.0.1";
        int port = 9000;

        // get the execution environment
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // get input data by connecting to the socket
        DataStream<string> text = env.socketTextStream("localhost", port, "\\n");

        // parse the data, group it, window it, and aggregate the counts
        DataStream<wordwithcount> windowCounts = text
                .flatMap(new FlatMapFunction<string>() {
                    @Override
                    public void flatMap(String value, Collector<wordwithcount> out) {
                        for (String word : value.split("\\s")) {
                            out.collect(new WordWithCount(word, 1L));
                        }
                    }
                })
                .keyBy("word")
                .timeWindow(Time.seconds(5), Time.seconds(1)) 

                .reduce(new ReduceFunction<wordwithcount>() {
                    @Override
                    public WordWithCount reduce(WordWithCount a, WordWithCount b) {
                        return new WordWithCount(a.getWord(), a.getCount() + b.getCount());
                    }
                });

        // print the results with a single thread, rather than in parallel
        windowCounts.print().setParallelism(1);

        env.execute("Socket Window WordCount");
    }
}
/<wordwithcount>/<wordwithcount>/<string>/<wordwithcount>/<string>/<code>

這裡的程序代碼核心點在於，比之前的多了一個算子 timeWindow，並且有兩個參數，分別是時間窗口大小以及滑動窗口大小（Time size, Time slide），下面是簡單的輸入和輸出示意圖：

由於滑動窗口大小是 1s，窗口是有重合的部分，然後每秒統計自己所在窗口的數據（5s 內傳輸過來的數據），可以看到第 6s 時，已經捨棄掉第 0s 輸入的字符串數據。

小夥伴們也可以修改一下時間窗口大小和滑動窗口大小，然後輸入自定義的數據，進行不同參數的設置，看下輸出效果如何，是否有達到自己的預期。

這裡先初步接觸一下 時間（Time）和窗口（Window）概念，之後慢慢接觸逐步加深理解吧。

4 總結

本文基於 Mac 系統、 Apache Flink 1.9 版本進行了項目搭建和 Demo 編寫，介紹了 Suorce -> Transformation -> Sink 的流程。簡單的實現了一個字符計數器，往套接字數據源 SocketTextStream，源源不斷的輸入，然後進行統計出現的次數，如有疑惑或不對之處請與我討論~

分享到:

閱讀更多 科技伍小黑 的文章

關鍵字: 搭建 Windows Apache

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"