2020-03-10 22:58:55 情報通

【導讀：數據是二十一世紀的石油，蘊含巨大價值，這是·情報通·大數據技術系列第[83]篇文章，歡迎閱讀和收藏】

1 基本概念

Spark Streaming 是 Spark 核心 API 的一個擴展，可以實現高吞吐量的、具備容錯機制的實時流數據的處理。支持從多種數據源獲取數據，包括 Kafk 、 Flume 、 Twitter 、 ZeroMQ 、 Kinesis 以及 TCP sockets ，從數據源獲取數據之後，可以使用諸如 map 、 reduce 、 join 和 window 等高級函數進行復雜算法的處理。最後還可以將處理結果存儲到文件系統，數據庫和現場儀表盤。在“ One Stack rule them all ”的基礎上，還可以使用 Spark 的其他子框架，如集群學習、圖計算等，對流數據進行處理。

2 原理介紹

2.1 Spark Streaming 處理的數據流圖

Spark Streaming 的基本原理是將輸入數據流以時間片（秒級）為單位進行拆分 ,

然後以類似批處理的方式處理每個時間片數據

首先， Spark Streaming 把實時輸入數據流以時間片Δ t （如 1 秒）為單位切分成塊。 Spark Streaming 會把每塊數據作為一個 RDD ，並使用 RDD 操作處理每一小塊數據。每個塊都會生成一個 Spark Job 處理，最終結果也返回多塊。

2.2 SparkStreaming 支持的業務場景

目前而言 SparkStreaming 主要支持以下三種業務場景 :

1. 無狀態操作：只關注當前的 DStream 中的實時數據，例如只對當前 DStream 中的數據做正確性校驗

2. 有狀態操作：對有狀態的 DStream 進行操作時 , 需要依賴之前的數據例如統計網站各個模塊總的訪問量

3. 窗口操作 : 對指定時間段範圍內的 DStream 數據進行操作，例如需要統計一天之內網站各個模塊的訪問數量

2.3 SparkStreaming 支持的操作

Discretized Stream 是 Spark Streaming 的基礎抽象，代表持續性的數據流和經過各種 Spark 原語操作後的結果數據流。在內部實現上， DStream 由連續的序列化 RDD 來表示。支持的操作主要包含以下幾種 :

1. Action

當某個 Output Operations 原語被調用時， stream 才會開始真正的計算過程。現階段支持的 Output 方式有以下幾種

print()

foreachRDD(func)

saveAsObjectFiles(prefix, [suffix])

saveAsTextFiles(prefix, [suffix])

saveAsHadoopFiles(prefix, [suffix])

2. 常規 RDD 的 Transformation 操作

對常規 RDD 使用的 transformation 操作，在 DStream 上都適用

3. 有狀態的 Transformation

UpdateStateByKey: 使用該方法主要是使用目前的 DStream 數據來更新歷史數據

4. 窗口的 Transformation
Window Operations 有點類似於 Storm 中的 State ，可以設置窗口的大小和滑動窗口的間隔來動態的獲取當前 Steaming 的允許狀態。

主要支持的操作有：

0. window(windowLength, slideInterval)

1. countByWindow(windowLength, slideInterval)

2. reduceByWindow(func, windowLength, slideInterval)

3. reduceByKeyAndWindow(func, windowLength, slideInterval, [numTasks])

4. reduceByKeyAndWindow(func, invFunc, windowLength, slideInterval, [numTasks])

5. countByValueAndWindow(windowLength, slideInterval, [numTasks])

2.4 Spark Streaming 優化

監控手段：

一般來說，使用 Spark 自帶的 Web UI 就能滿足大部分的監控需求。對於 Spark Streaming 來說，以下兩個度量指標尤為重要（在 Batch Processing Statistics 標籤下）：

Processing Time ：處理每個 batch 的時間

Scheduling Delay: 每個 batch 在隊列中等待前一個 batch 完成處理所等待的時間

若 Processing Time 的值一直大於 Scheduling Delay ，或者 Scheduling Delay 的值持續增長，代表系統已經無法處理這樣大的數據輸入量了，這時就需要考慮各種優化方法來增強系統的負載。

優化方式 :

1. 利用集群資源，減少處理每個批次的數據的時間

a. 控制 reduce 數量，太多的 reducer, 造成很多的小任務 , 以此產生很多啟動任務的開銷。太少的 reducer, 任務執行行慢 !

b. 序列化：包含輸入數據序列化、 RDD 序列化、 TASK 序列化

2. 在 Standalone 及 coarse-grained 模式下的任務啟動要比 fine-grained 省時

3. 給每個批次的數據量的設定一個合適的大小，原則 : 要來得及消化流進系統的數據

4. 內存調優

a. 清理緩存的 RDD

b. 在 spark.cleaner.ttl 之前緩存的 RDD 都會被清除掉

c. 設置 spark.streaming.unpersis, 系統為你分憂

d. 使用併發垃圾收集器

分享到:

閱讀更多 情報通 的文章

關鍵字: 數據庫八十三大數據

「大數據」（八十三）Spark之Streaming實時流

1 基本概念

2 原理介紹

2.1 Spark Streaming 處理的數據流圖

2.2 SparkStreaming 支持的業務場景

2.3 SparkStreaming 支持的操作

2.4 Spark Streaming 優化

相關文章:

「大數據」（八十三）Spark之Streaming實時流

1 基本概念

2 原理介紹

2.1 Spark Streaming 處理的數據流圖

2.2 SparkStreaming 支持 的業務場景

2.3 SparkStreaming 支持的操作

2.4 Spark Streaming 優化

相關文章:

源碼分析 Sentinel 實時數據採集實現原理(圖文並茂)

文件數據同步備份軟件-自動、計劃、實時

05.31 基於Spark、NoSQL的實時數據處理實踐

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

2.2 SparkStreaming 支持的業務場景

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？