大數據實時處理引擎 Structured Streaming VS Flink

2019-01-15 16:31:51 大數據信息站

flink是標準的實時處理引擎，而且Spark的兩個模塊Spark Streaming和Structured Streaming都是基於微批處理的，不過現在Spark Streaming已經非常穩定基本都沒有更新了，然後重點移到spark sql和structured Streaming了。

Flink作為一個很好用的實時處理框架，也支持批處理，不僅提供了API的形式，也可以寫sql文本。這篇文章主要是幫著大家對於Structured Streaming和flink的主要不同點。文章建議收藏後閱讀。

1. 運行模型

Structured Streaming 的task運行也是依賴driver 和 executor，當然driver和excutor也還依賴於集群管理器Standalone或者yarn等。可以用下面一張圖概括：

Flink的Task依賴jobmanager和taskmanager。官方給了詳細的運行架構圖，可以參考：

Structured Streaming 週期性或者連續不斷的生成微小dataset，然後交由Spark SQL的增量引擎執行，跟Spark Sql的原有引擎相比，增加了增量處理的功能，增量就是為了狀態和流表功能實現。由於是也是微批處理，底層執行也是依賴Spark SQL的。

Flink 中的執行圖可以分成四層：StreamGraph-> JobGraph -> ExecutionGraph -> 物理執行圖。細分:

StreamGraph：是根據用戶通過 Stream API 編寫的代碼生成的最初的圖。用來表示程序的拓撲結構。

JobGraph： StreamGraph經過優化後生成了JobGraph，提交給 JobManager 的數據結構。主要的優化為，將多個符合條件的節點 chain 在一起作為一個節點，這樣可以減少數據在節點之間流動所需要的序列化/反序列化/傳輸消耗。這個可以用來構建自己的自己的集群任務管理框架。

ExecutionGraph： JobManager 根據 JobGraph 生成的分佈式執行圖，是調度層最核心的數據結構。

物理執行圖： JobManager 根據ExecutionGraph 對 Job 進行調度後，在各個TaskManager 上部署 Task 後形成的“圖”，並不是一個具體的數據結構。

2. 編程風格

兩者的編程模型基本一致吧，都是鏈式調用。

3. 時間概念

三種處理時間：事件時間，注入時間，處理時間。

Flink支持三種時間，同時flink支持基於事件驅動的處理模型，同時在聚合等算子存在的時候，支持狀態超時自動刪除操作，以避免7*24小時流程序計算狀態越來越大導致oom，使得程序掛掉。

Structured Streaming僅支持事件時間，處理時間。

對於基於事件時間的處理flink和Structured Streaming都是支持watemark機制，窗口操作基於watermark和事件時間可以對滯後事件做相應的處理，雖然聽起來這是個好事，但是整體來說watermark就是雞肋，它會導致結果數據輸出滯後，比如watermark是一個小時，窗口一個小時，那麼數據輸出實際上會延遲兩個小時，這個時候需要進行一些處理。

4. 維表實現及異步io

Structured Streaming不直接支持與維表的join操作，但是可以使用map、flatmap及udf等來實現該功能，所有的這些都是同步算子，不支持異步IO操作。但是Structured Streaming直接與靜態數據集的join，可以也可以幫助實現維表的join功能，當然維表要不可變。

Flink也不支持與維表進行join操作，除了map，flatmap這些算子之外，flink還有異步IO算子，可以用來實現維表，提升性能。

5. 狀態管理

狀態維護應該是流處理非常核心的概念了，比如join，分組，聚合等操作都需要維護歷史狀態，那麼flink在這方面很好，structured Streaming也是可以，但是spark Streaming就比較弱了，只有個別狀態維護算子upstatebykye等，大部分狀態需要用戶自己維護，雖然這個對用戶來說有更大的可操作性和可以更精細控制但是帶來了編程的麻煩。flink和Structured Streaming都支持自己完成了join及聚合的狀態維護。

Structured Streaming有高級的算子，用戶可以完成自定義的mapGroupsWithState和flatMapGroupsWithState，可以理解類似Spark Streaming 的upstatebykey等狀態算子。

就拿mapGroupsWithState為例：

由於Flink與Structured Streaming的架構的不同，task是常駐運行的，flink不需要狀態算子，只需要狀態類型的數據結構。

首先看一下Keyed State下，我們可以用哪些原子狀態：

ValueState：即類型為T的單值狀態。這個狀態與對應的key綁定，是最簡單的狀態了。它可以通過update方法更新狀態值，通過value()方法獲取狀態值。

ListState

：即key上的狀態值為一個列表。可以通過add方法往列表中附加值；也可以通過get()方法返回一個Iterable來遍歷狀態值。

ReducingState：這種狀態通過用戶傳入的reduceFunction，每次調用add方法添加值的時候，會調用reduceFunction，最後合併到一個單一的狀態值。

FoldingState：跟ReducingState有點類似，不過它的狀態值類型可以與add方法中傳入的元素類型不同（這種狀態將會在Flink未來版本中被刪除）。

MapState：即狀態值為一個map。用戶通過put或putAll方法添加元素。

6. join操作

flink的join操作沒有大的限制，支持種類豐富，比：

Inner Equi-join

Outer Equi-join

Time-windowed Join

Expanding arrays into a relation

Join with Table Function

Join with Temporal Table

Structured Streaming的join限制頗多了，知識星球裡發過了join細則，限於篇幅問題在這裡只講一下join的限制。具體如下表格

還有另外細則需要說明一下：

join可以傳遞。比如df1.join(df2).join(df3)。
從spark2.3開始，只有在輸出模式為append的流查詢才能使用join，其他輸出模式暫不支持。
從spark2.3開始，在join之前不允許使用no-map-like操作。以下是不能使用的例子。

在join之前不能使用流聚合操作。
在join之前，無法在update模式下使用mapGroupsWithState和flatMapGroupsWithState。

7. 觸發處理模型

這個之所以講一下區別，實際緣由也很簡單，Structured Streaming以前是依據spark的批處理起家的實時處理，而flink是真正的實時處理。那麼既然Structured Streaming是批處理，那麼問題就簡單了，批次執行時間和執行頻率自然是有限制的，就產生了多種觸發模型，簡單稱其為triggers。Strucctured Streaming的triggers有以下幾種形式：

1). 支持單次觸發處理，類似於flink的批處理。

Trigger.Once()顧名思義這個僅處理一次，類似於flink的批處理。

2). 週期性觸發處理

Trigger.ProcessingTime("2 seconds")

查詢將以微批量模式執行，其中微批次將以用戶指定的間隔啟動:

a).如果先前的微批次在該間隔內完成，則引擎將等待該間隔結束，然後開始下一個微批次。

b).如果前一個微批次需要的時間超過完成的時間間隔（即如果錯過了區間邊界），那麼下一個微批次將在前一個完成後立即開始（即，它不會等待下一個間隔邊界））。

c).如果沒有可用的新數據，則不會啟動微批次。

3). 連續處理

指定一個時間間隔

Trigger.Continuous("1 second")

這個1秒鐘表示每秒鐘記錄一次連續處理查詢進度。

4). 默認觸發模型

一個批次執行結束立即執行下個批次。

Flink的觸發模式很簡單了，一旦啟動job一直執行處理，不存在各種觸發模式，當然假如窗口不算的話。

8. 表管理

flink和structured streaming都可以講流注冊成一張表，然後使用sql進行分析，不過兩者之間區別還是有些的。

Structured Streaming將流注冊成臨時表，然後用sql進行查詢，操作也是很簡單跟靜態的dataset/dataframe一樣。

其實，此處回想Spark Streaming 如何註冊臨時表呢？在foreachRDD裡，講rdd轉換為dataset/dataframe，然後將其註冊成臨時表，該臨時表特點是代表當前批次的數據，而不是全量數據。Structured Streaming註冊的臨時表就是流表，針對整個實時流的。Sparksession.sql執行結束後，返回的是一個流dataset/dataframe,當然這個很像spark sql的sql文本執行，所以為了區別一個dataframe/dataset是否是流式數據，可以df.isStreaming來判斷。

當然，flink也支持直接註冊流表，然後寫sql分析，sql文本在flink中使用有兩種形式：

對於第一種形式，sqlQuery執行結束之後會返回一張表也即是Table對象,然後可以進行後續操作或者直接輸出，如：result.writeAsCsv("");。

而sqlUpdate是直接將結果輸出到了tablesink，所以要首先註冊tablesink，方式如下：

flink註冊表的形式比較多，直接用數據源註冊表，如：

也可以從datastream轉換成表，如：

關注小編並私信“大數據”即可獲取更多大數據組件源碼級別的學習資料和（源碼，筆記，PPT，學習視頻）還會分享（Hadoop，spark，kafka，MapReduce，scala，flink，推薦算法，實時交易監控系統，用戶分析行為，推薦系統）

9. 監控管理

對於Structured Streaming一個SparkSession實例可以管理多個流查詢,可以通過SparkSession來管理流查詢，也可以直接通過start調用後返回的StreamingQueryWrapper對象來管理流查詢。

SparkSession.streams獲取的是一個StreamingQueryManager，然後通過start返回的StreamingQueryWrapper對象的id就可以獲取相應的流查詢狀態和管理相應的流查詢。當然，也可以直接使用StreamingQueryWrapper來做這件事情，由於太簡單了，我們就不貼了可以直接在源碼裡搜索該類。

對與Structured Streaming的監控，當然也可以使用StreamingQueryWrapper對象來進行健康監控和告警

其中，有些對象內部有更詳細的監控指標，比如lastProgress，這裡就不詳細展開了。

還有一種監控Structured Streaming的方式就是自定義StreamingQueryListener，然後監控指標基本一樣。註冊的話直接使用

spark.streams.addListener(new StreamingQueryListener())即可。

Flink的管理工具新手的話主要建議是web ui ，可以進行任務提交，job取消等管理操作，監控的話可以看執行圖的結構，job的執行狀態，背壓情況等。

當然，也可以通過比如flink的YarnClusterClient客戶端對jobid進行狀態查詢，告警，啟動，停止等操作。

總結

除了以上描述的這些內容，可能還關心kafka結合的時候新增topic或者分區時能否感知，實際上兩者都能感知，初次之外。flink還有很多特色，比如數據迴流，分佈式事務支持，分佈式快找，異步增量快照，豐富的windows操作，側輸出，複雜事件處理等等。

對於窗口和join，兩者區別還是很大，限於篇幅問題後面浪尖會分別給出講解。

flink是一個不錯的流處理框架，雖然目前還有些bug和待完善的部分。

分享到:

閱讀更多 大數據信息站 的文章

關鍵字: 數據結構 Spark 大數據

「大數據」（一百四十八）常用算法及數據結構之Stacks

「大數據」（一百三十六）常見算法及數據結構之Bitmap樹

大數據：瞭解Hadoop生態中Hive和HBase兄弟倆的區別

「大數據」（一百二十七）Python基礎之字符串：字符串方法

「大數據」（一百二十五）Python基礎之元組：tuple函數

「大數據」（一百二十三）Python基礎之列表：列表方法

「大數據」（一百二十一）Python基礎之序列：成員資格

「大數據」（一百二十）Python基礎之序列：乘法

「大數據」（一百一十九）Python基礎之序列：序列相加

「大數據」（一百一十七）Python基礎之字符串

「大數據」（一百一十六）Python基礎之註釋

大數據，Hadoop生態詳解

「大數據」（一百一十五）Python基礎之常用魔法函數

「大數據」（一百一十四）Python基礎知識之函數

「大數據」（一百一十三）Python基礎知識之獲取用戶輸入

「大數據」（一百一十二）Python基礎之數字和表達式

「大數據」（一百零一）常用分區工具

「大數據」（一百）磁盤分區類型及各自作用

「大數據」（九十七）Scala之文件操作

「大數據」（九十二）Scala之輔助構造器

「大數據」（八十八）Scala之數組

「大數據」（八十七）Scala之控制器和函數

「大數據」（八十六）Scala基礎

「大數據」（八十五）Spark之MLlib體驗

「大數據」（八十三）Spark之Streaming實時流

「大數據」（八十二）Spark之SparkSQL應用案例

「大數據」（八十一）Spark之SparkSQL運行架構

03.08 「大數據」（八十一）Spark之SparkSQL運行架構

「大數據」（八十）Spark之Shuffle機制

「大數據」（七十九）Spark之Lineage機制

「大數據」（七十八）Spark之通信模塊

03.03 「大數據」（七十六）Spark之工作機制

02.27 大數據：瞭解Hive和HBase的區別

02.26 「大數據」（七十）Spark之生態系統

大數據 Hadoop（中）筆記大全收藏加關注

大數據 Linux筆記大全

大數據：Yarn應用程序提交流程

大數據、Hadoop核心框架和MapReduce原理

大數據：清洗流程以及入門實例

大數據：數據清洗的定義以及數據清洗的方法

大數據、雲計算系統頂級架構師課程學習路線圖

大數據:Hbase的知識大全都在這裡

大數據：基於zookeeper協調的分布式日誌系統Kafka的文件存儲機制

大數據、機器學習和深度學習類命令行工具

大數據，Java丶Python丶Web前端等300G的學習資料無償分享！

大數據——MapReduce

大數據-hadoop生態系統及版本演化

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"