初學者對大數據技術學習的一系列問題

初學者對大數據技術學習的一系列問題

很多大數據的初學者,總是會問這樣的問題:大數據是什麼?大數據需要學哪些技術??我們再來簡單探討下吧。

首先大數據是一個比較大的概念,這也就是為什麼你問很多對大數據比較瞭解的人,他們也無法立馬回答你的原因。你說喜歡大數據,其實就好像在說喜歡"人類"一樣。這種感覺就像,一個外星人乍一看人類不都是一個樣嗎,然後用飛碟在地球各地擄走了幾個樣本之後,外星人發現自己懵逼了,怎麼這些樣本之間的差別這麼大啊,膚色、語言、思維習慣等等都不一樣,最後得出結論,不能用對付其中一個樣本種群的方法對付其他樣本種群,得慢慢研究。

但是你日常生活中,隨時隨地都在產生數據,你注意到沒有,每個人的手機都變成採集器了。手機擁有者剛顯示出對某個商品表示興趣,30秒鐘之內精確的廣告就會投放過來。所以大數據不是非常神秘的,人人都可以解除,只不過有一部分人對此加深了研究學習。

至於,,這裡對大數據學習中要接觸的技術做一些簡單的介紹,如果感興趣可以去仔細研究學習:

初學者對大數據技術學習的一系列問題

一、Hadoop

可以說,hadoop幾乎已經是大數據代名詞,至少目前來看hadoop就是大數據。無論是是否贊成,hadoop已經是大部分企業的大數據標準。得益於Hadoop生態圈,從現在來看,還沒有什麼技術能夠動搖hadoop的地位。

這一塊可以按照一下內容來學習:

1、Hadoop產生背景

2、Hadoop在大數據、雲計算中的位置和關係

3、國內外Hadoop應用案例介紹

4、國內Hadoop的就業情況分析及課程大綱介紹

5、分佈式系統概述

6、Hadoop生態圈以及各組成部分的簡介

二、分佈式文件系統HDFS

HDFS全稱 Hadoop Distributed File System ,它是一個高度容錯性的系統,適合部署在廉價的機器上,同時能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。為了實現流式讀取文件系統數據的目的,HDFS放寬了一部分POSIX約束。

1、分佈式文件系統HDFS簡介

2、HDFS的系統組成介紹

3、HDFS的組成部分詳解

4、副本存放策略及路由規則

5、NameNode Federation

6、命令行接口

7、Java接口

8、客戶端與HDFS的數據流講解

9、HDFS的可用性(HA)

三、初級MapReduce

這是你成為Hadoop開發人員的基礎課程。

MapReduce提供了以下的主要功能:

1)數據劃分和計算任務調度:

2)數據/代碼互定位:

3)系統優化:

4)出錯檢測和恢復:

這種編程模型主要用於大規模數據集(大於1TB)的並行運算。

1、如何理解map、reduce計算模型

2、剖析偽分佈式下MapReduce作業的執行過程

3、Yarn模型

4、序列化

5、MapReduce的類型與格式

6、MapReduce開發環境搭建

7、MapReduce應用開發

8、熟悉MapReduce算法原理

四、高級MapReduce

這一塊主要是高級Hadoop開發的技能,都是MapReduce為什麼我要分開寫呢?因為我真的不覺得誰能直接上手就把MapReduce搞得清清楚楚。

1、使用壓縮分隔減少輸入規模

2、利用Combiner減少中間數據

3、編寫Partitioner優化負載均衡

4、如何自定義排序規則

5、如何自定義分組規則

6、MapReduce優化

五、Hadoop集群與管理

這裡會涉及到一些比較高級的數據庫管理知識,乍看之下都是操作性的內容,但是做成容易,做好非常難。

1、Hadoop集群的搭建

2、Hadoop集群的監控

3、Hadoop集群的管理

4、集群下運行MapReduce程序

六、ZooKeeper基礎知識

ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

1、ZooKeeper體現結構

2、ZooKeeper集群的安裝

3、操作ZooKeeper

七、HBase基礎知識

HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。

與FUJITSU Cliq等商用大數據產品不同,HBase是Google Bigtable的開源實現,類似Google Bigtable利用GFS作為其文件存儲系統,HBase利用Hadoop HDFS作為其文件存儲系統;Google運行MapReduce來處理Bigtable中的海量數據,HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據;Google Bigtable利用 Chubby作為協同服務,HBase利用Zookeeper作為對應。

1、HBase定義

2、HBase與RDBMS的對比

3、數據模型

4、系統架構

5、HBase上的MapReduce

6、表的設計

八、HBase集群及其管理

1、集群的搭建過程

2、集群的監控

3、集群的管理

十、Pig基礎知識

Pig是進行Hadoop計算的另一種框架,是一個高級過程語言,適合於使用 Hadoop 和 MapReduce 平臺來查詢大型半結構化數據集。通過允許對分佈式數據集進行類似 SQL 的查詢,Pig 可以簡化 Hadoop 的使用。

1、Pig概述

2、安裝Pig

3、使用Pig完成手機流量統計業務

十一、Hive

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用。

1、數據倉庫基礎知識

2、Hive定義

3、Hive體系結構簡介

4、Hive集群

5、客戶端簡介

6、HiveQL定義

7、HiveQL與SQL的比較

8、數據類型

9、表與表分區概念

10、表的操作與CLI客戶端

11、數據導入與CLI客戶端

12、查詢數據與CLI客戶端

13、數據的連接與CLI客戶端

14、用戶自定義函數(UDF)

十二、Storm

Storm為分佈式實時計算提供了一組通用原語,可被用於"流處理"之中,實時處理消息並更新數據庫。這是管理隊列及工作者集群的另一種方式。 Storm也可被用於"連續計算"(continuous computation),對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶。它還可被用於"分佈式RPC",以並行的方式運行昂貴的運算。

1、Storm基礎知識:包括Storm的基本概念和Storm應用

場景,體系結構與基本原理,Storm和Hadoop的對比

2、Storm集群搭建:詳細講述Storm集群的安裝和安裝時常見問題

3、Storm組件介紹: spout、bolt、stream groupings等

4、Storm消息可靠性:消息失敗的重發

5、Hadoop 2.0和Storm的整合:Storm on YARN

6、Storm編程實戰

對大數據感興趣的朋友要多關注大數據技術動態,IT技術的更新換代非常快,要緊跟時代才能不被淘汰!

需要零基礎視頻 開發工具 系統學習路線,私信回覆 關鍵字:“666” 獲取


分享到:


相關文章: