Streaming System( Google 流式團隊著作) -Streaming 101(5)


Unbounded Data:Streaming

上面利用批量的方法來處理無邊界數據不存在普遍適用性,需要很多adhoc的特性,流式系統就是用來處理無邊界數據的,因此將存在更加普遍的適用性。正如早些時候提到的,在真實的環境中,將面臨的挑戰,不僅是無邊界數據,還將面臨如下的問題

· 無序的數據,意味著如果想變成有序的,需要有一些shuffle策略將無序數據變得有序。

· 由於存在eventime-skew(https://www.toutiao.com/i6802549049162465804/詳細有介紹),所以無法預測什麼時候,目前要處理的時間結束

目前有幾種方法可以處理這些問題:time-agnostic(直譯是時間不可知,看了下文,更多是說處理語義和時間關係不大的情況,比如過濾)估算,processing time的窗口和event time的窗口

上一篇:https://www.toutiao.com/i6802848088206606851/


分享到:


相關文章: