五大最佳數據框架的快速比較技术頭條網

五大最佳數據框架的快速比較

2018-04-25 15:25:05 課課家

海量數據的不斷生成需要數據管理和分析。讓我們看看五個最好的Apache大數據框架是如何進行比較的。

無法使用傳統數據處理軟件處理的大量複雜數據的集合被稱為大數據。大數據的功能包括: 隱私、數據存儲、捕獲數據、數據分析、搜索、共享、可視化、查詢、更新、傳輸和信息安全。

有許多大數據技術可用於存儲數據、更快地執行任務、使系統並行、提高處理速度和分析數據。還有許多分佈式計算系統可以實時或近實時處理大數據。

以下是五個最好的Apache大數據框架的簡要描述。

Apache Hadoop

Apache Hadoop是一個用Java編寫的開源，可擴展和容錯的框架。這是一個處理框架，專門提供批處理，並有效地處理大量商品硬件上的大量數據。 Hadoop不僅是一個存儲系統，而且是存儲大量數據和處理的平臺。

現代版本的Hadoop由多個組件或層組成，這些組件或層一起工作來處理批處理數據。這些在下面列出。

HDFS（Hadoop分佈式文件系統）：這是分佈式文件系統層，它協調跨群集節點的存儲和複製。儘管存在不可避免的主機故障，但HDFS確保數據仍然可用。它用作數據源，存儲中間處理結果，並保留最終的計算結果。

YARN：這是Yet Another Resource Negotiator的意思。它是Hadoop堆棧的集群協調組件，負責協調和管理需要運行的底層資源和調度作業。通過充當群集資源的接口，YARN使得可以在Hadoop群集上運行更多不同的工作負載。

MapReduce：這是Hadoop的本地批處理引擎。

Apache Storm

Apache Storm是一個流處理框架，專注於極低的延遲，可能是需要接近實時處理的工作負載的最佳選擇。它可以處理大量的數據，並以比其他解決方案更少的延遲交付結果。Storm很簡單，可以和任何編程語言一起使用，也很有趣。

Storm有許多用例：實時分析，在線機器學習，連續計算，分佈式RPC，ETL等等。它速度很快 - 每個節點每秒處理超過一百萬個元組的基準時鐘。它還具有可擴展性，容錯性，可確保您的數據得到處理，並且易於設置和操作。

大數據框架

Apache Samza

Apache Samza是一個流處理框架，與Apache Kafka消息系統緊密相關。雖然Kafka可以被許多流處理系統使用，Samza專門設計用於利用Kafka獨特的架構和保證。它使用Kafka提供容錯，緩衝和狀態存儲。

Samza使用YARN進行資源談判。這意味著，默認情況下，需要Hadoop集群（至少HDFS和YARN）。這也意味著Samza可以依靠YARN內置的豐富功能。

Apache Spark

Apache Spark是一個通用和閃電般的集群計算系統。它提供了Java，Scala，Python和R等高級API，並且是運行Spark應用程序的工具。它比Big Data Hadoop快100倍，比從磁盤訪問數據快10倍。它可以與Hadoop集成並可以處理現有的Hadoop HDFS數據。

Apache Spark是具有流處理功能的下一代批處理框架。使用Hadoop的MapReduce引擎的許多相同原理構建，Spark主要側重於通過提供完整的內存中計算和處理優化來加快批處理工作負載。

Spark可以作為獨立群集部署（如果與可用的存儲層配對），或者可以掛鉤到Hadoop中作為MapReduce引擎的替代方案。

五大最佳數據框架的快速比較

最佳大數據框架的比較

Apache Flink

Apache Flink是一個開源平臺；它是一個流式數據流引擎，為數據流上的分佈式計算提供通信，容錯和數據分佈。它是一個可擴展的數據分析框架，與Hadoop完全兼容。 Flink可以輕鬆執行流處理和批處理。

當Spark執行批處理和流處理時，由於其微量批處理架構，其流式傳輸不適用於許多用例。 Flink的流優先方法提供低延遲，高吞吐量和真正的逐條入口處理。

更多閱讀

分享到:

閱讀更多 課課家 的文章

關鍵字: Hadoop 大數據雲計算

五大最佳數據框架的快速比較

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪