大數據技術概述

隨著技術的發展,大數據技術行業已經成為當下最為熱門的方向之一,特別時隨著國家新一輪“新基建”政策的出臺,必將推動大數據技術的普及和關注度。因此,不管是從事軟件行業還是非軟件行業的工作者都有必要對其有一定了解。

大數據技術的主要目的就是解決困擾人們的大規模數據的存儲和計算問題。發展至今已經產生針對不同場景不同要求的多種解決方案框架。

第一代大數據計算引擎:Hadoop系列組件。主要解決了大規模數據的存儲和離線數據的計算問題。hadoop的三劍客包括hdfs文件系統,MapReduce並行計算框架和Yarn資源調度器。簡單來說,hdfs解決了數據的存儲和管理;MapReduce解決了對大數據的離線分析,但是無法滿足實時性要求較高的場合;yarn實現了大數據集群的資源管理的功能。以MapReduce為基礎,在各大公司和組織的貢獻下,湧現出了一批方便的,功能獨特的組件,如sqoop,hive,pig,hbase等。

第二代大數據計算引擎:以spark技術為代表。spark是眼下最為炙手可熱的框架,它集批量計算,流計算,圖計算,機器學習於一身。基於內存的計算模型,使其計算性能遠超hadoop組件。

當下國內另一個主流框架flink正成為各大公司的寵兒,在各方的推動下,flink生態越來越健全。flink同樣支持流處理、批處理、AI、MachineLearning、圖計算等等。特別是在解決實時數據的exactly-once計算(精確一次)具有突出的優勢。


分享到:


相關文章: