情報分析大數據處理平臺CDH簡介及體系架構

來源:雪峰大數據公眾號

情報分析大數據處理平臺CDH簡介及體系架構

1、官網介紹:

CDH是Cloudera的100%開源平臺發行版,包括Apache Hadoop,專為滿足數據處理需求而構建。CDH提供開箱即用的使用所需的一切。通過將Hadoop與十幾個其他關鍵的開源項目集成,Cloudera創建了一個功能先進的系統,可幫助執行端到端的大數據工作流程。

簡單來說:CDH 是一個擁有集群自動化安裝、中心化管理、集群監控、報警功能的一個工具(軟件),使得集群的安裝可以從幾天的時間縮短為幾個小時,運維人數也會從數十人降低到幾個人,極大的提高了集群管理的效率。

2、為什麼選擇CDH部署Cluster

1)CDH基於穩定版Apache Hadoop,並應用最新Bug修復或者Feature的Patch

2)Cloudera官網上安裝、升級文檔十分詳細

3)CDH支持Yum包、tar包、RPM包,Cloudera Manager四種安裝方式。推薦使用Yum、Apt方式安裝

對於CDH的安裝,後期我會分別使用yum和Cloudera Manager兩種方式進行安裝。在這裡先說下Cloudera Manager的功能。

3、Cloudera Manager的功能

1)管理:對集群進行管理,例如添加、刪除節點等操作

2)監控:監控集群的健康情況,對設置的各種指標和系統的具體運行情況進行全面的監控

3)診斷:對集群出現的各種問題進行診斷,並且給出建議和解決方案

4)集成:多組件可以進行版本兼容間的整合

4、CDH架構圖

情報分析大數據處理平臺CDH簡介及體系架構

當然以上所畫圖只是一些基礎,還有很多大數據組件沒有畫。

下面對圖中體系結構做些簡單說明:

> 數據整合

flume主要是日誌採集組件,可以從tomcat服務日誌或者nginx日誌中獲取產生的日誌

sqoop主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關係型數據庫(例如 :MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。

nfs是FreeBSD支持的文件系統中的一種,它允許網絡中的計算機之間通過TCP/IP網絡共享資源。在NFS的應用中,本地NFS的客戶端應用可以透明地讀寫位於遠端NFS服務器上的文件,就像訪問本地文件一樣。

> HDFS

hdfs是一個分佈式文件存儲系統,可以將大量的大文件進行存儲,它和其他的分佈式文件系統的主要區別是它是一個高容錯的系統,適合部署在廉價的機器上,並且hdfs能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。

> Hbase

官網解釋:

當您需要對大數據進行隨機,實時讀/寫訪問時,請使用Apache HBase™。該項目的目標是託管非常大的表 - 數十億行X百萬列 - 在商品硬件集群上。Apache HBase是一個開源的,分佈式的,版本化的非關係數據庫,模仿Google的Bigtable:Chang等人的結構化數據分佈式存儲系統。正如Bigtable利用Google文件系統提供的分佈式數據存儲一樣,Apache HBase在Hadoop和HDFS之上提供類似Bigtable的功能。

Hbase的結構圖我先貼出來,以後我會詳細通過一篇博客進行介紹

情報分析大數據處理平臺CDH簡介及體系架構

現在生產環境下,如果做實時SQL分析的話,一般不會直接在hbase中使用SQL進行查詢,而是結合另一種工具Kylin。

kylin官網解釋:

Apache Kylin™是一個開源的分佈式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據,最初由eBay Inc.開發並貢獻至開源社區。

kylin完全是由我們中國開發人員進行開發的,並且現在已經成為Apache的頂級項目,使用kylin可以提高相同SQL在hive或者hbase中查詢的速度數十倍

————————————————

版權聲明:本文為CSDN博主「流一恩典」的原創文章

原文鏈接:https://blog.csdn.net/czz1141979570/java/article/details/86530878


分享到:


相關文章: