大數據和Hadoop什麼關係?為什麼大數據要學習Hadoop?

麼麼茶加糖


首先呢?要知道什麼是大數據

Hadoop是由java語言編寫的,在分佈式服務器集群上存儲海量數據並運行分佈式分析應用的開源框架,其核心部件是HDFS與MapReduce。

HDFS是一個分佈式文件系統:引入存放文件元數據信息的服務器Namenode和實際存放數據的服務器Datanode,對數據進行分佈式儲存和讀取。

  MapReduce是一個分佈式計算框架:MapReduce的核心思想是把計算任務分配給集群內的服務器裡執行。通過對計算任務的拆分(Map計算/Reduce計算)再根據任務調度器(JobTracker)對任務進行分佈式計算。

我講了這麼多,Hadoop就是處理大數據其中的技術


全棧開發訓練營


hadoop可以說是大數據領域最早的處理框架了,起初僅包含了海量數據的存儲HDFS,海量數據的處理MapReduce,分別是基於谷歌的兩篇論文實現的,可以說hadoop是大數據開發的基礎。其底層一些設計思想也影響後來幾代大數據開發框架,像Spark就是為了解決Hadoop的MapReduce執行速度而誕生的,要想學習Spark、Flink,首先也是要學習Hadoop體系的。另外Hadoop體系的HDFS、Yarn等也在Spark集群、Flink集群有著廣泛的應用。


分享到:


相關文章: