Hadoop與Spark兩個大數據技術生態系統各自的特點有哪些?

代碼老妹兒


Apache Spark是一個通用和閃電般的集群計算系統。它提供了高級API。例如,Java,Scala,Python和R. Apache Spark是用於運行Spark應用程序的工具。 Spark比Bigdata Hadoop快100倍,比從磁盤訪問數據快10倍。

Hadoop是一個用Java編寫的開源,可擴展和容錯框架。它有效地處理大量商品硬件上的大量數據。 Hadoop不僅是一個存儲系統,而且是一個大數據存儲和處理的平臺。

Spark是閃電般的群集計算工具。 Apache Spark的應用程序運行速度比Hadoop快100倍,磁盤速度快10倍。由於減少了磁盤讀/寫週期的次數,並且可以存儲內存中的中間數據。Hadoop MapReduce 從磁盤讀取和寫入,因此會降低處理速度。Spark很容易編程,因為它擁有大量具有RDD (彈性分佈式數據集的高級操作符)。Hadoop MapReduce 的開發人員需要手動編寫每一項操作,這使得工作非常困難。

Spark能夠在同一個群集中執行批處理,交互式和機器學習和流式處理。因此使其成為一個完整的數據分析引擎。因此,不需要為每個需求管理不同的組件。在集群上安裝Spark足以滿足所有要求。MapReduce只提供批處理引擎,因此,會依賴於不同的引擎。例如 Storm,Giraph,Impala等用於其他要求,所以,管理很多組件非常困難。

Apache Spark 可以以每秒數百萬事件的速率處理實時數據,即來自實時事件流的數據,例如,例如Twitter數據或Facebook分享/發佈。 Spark的優勢在於能夠有效地處理直播視頻流。Hadoop則不行,因為它旨在對大量數據執行批處理。


分享到:


相關文章: