大數據入門學者的學習的內容及大數據開發學習路線詳解

大數據入門學者的學習的內容及大數據開發學習路線詳解

很多人都知道大數據很受歡迎。他們的工作很好,薪水也很高。他們希望朝著大數據的方向發展。但是我們學到了什麼技術和路線呢?

大數據的三個發展方向,平臺建設/優化/運行/維護/監控,大數據開發/設計/架構,數據分析/挖掘。

首先,說大數據的4V特徵:

數據量大,TB-PB

有多種類型的數據,如結構化的、非結構化的文本、日誌、視頻、圖片、地理位置等。

商業價值很高,但是通過數據分析和機器學習需要大量的數據挖掘。

處理時間非常高,對海量數據處理的需求不再侷限於離線計算。

現在,為了應對這些大數據的特點,開源大數據框架正變得越來越強大。

文件存儲:Hadoop HDFS,Takyon,KFS

離線計算:Hadoop MapReduce,火花

流媒體,實時計算:風暴,火花流,S4,蒼鷺

K-V,NoSQL數據庫:HBase,ReiIS,MangoDB

資源管理:紗線,Mesos

日誌收集:匯,劃線,LogSTASH,Kibana

消息系統:卡夫卡,StruMQ,Zrimq,RabByMQ

查詢分析:蜂箱,KORAS,豬,出版社,菲尼克斯,SARKSQL,鑽機,弗蘭克,麒麟,Druid

分佈式協調服務:動物園管理員

集群管理和監控:AMBARI,Ganglia,NAGIOS,Cloudera管理器

數據挖掘與機器學習:火花MLLIB

數據同步:Sqoop

任務調度:OZIE

大數據入門學者的學習的內容及大數據開發學習路線詳解

它們有30多種。不要說他們精通。它們都被使用了。

第二個方向(開發/設計/架構)進行了詳細討論,這是很容易找到在這個方向。

第一章:Hadoop的第一個熟人

不管你有什麼問題,試著自己去搜索和解決。

1.2參考信息優先於公文

特別是對於入境,官方文件總是首選文件。

我相信這個地區的大多數人都是文化人,所以跟上英語是不可能的。請參閱第一步。

1.3讓Hadoop前進

Hadoop可以被看作是大數據存儲和計算的創始人。大多數開源大數據框架現在依賴於Hadoop或者與它們兼容。

關於Hadoop,你至少應該找出以下幾點:

Hadoop 1,Hadoop 2

MapReduce

那扇門,Tan Ode

JobTracker,TaskTracker

紗線,資源管理器

大數據入門學者的學習的內容及大數據開發學習路線詳解

要構建自己的Hadoop,請使用第一步和第二步來運行它。

建議先安裝安裝程序包命令行,而不是使用管理工具。

1.4嘗試使用Hadoop

HDFS目錄操作命令;

上傳和下載文件命令;

提交運行MapReduce示例程序;

打開Hadoop Web界面以查看作業的運行狀態並檢查作業運行日誌。

知道Hadoop的系統日誌在哪裡。

1.5你應該知道他們的原則。

MapReduce:如何劃分和征服

HDFS:數據在哪裡,什麼是副本;

什麼是紗線和它能做什麼;

那門在地球幹什麼?

資源管理者到底在做什麼;

1.6編寫MapReduce程序

請根據單詞計數的例子寫一個單詞計數程序。

大數據入門學者的學習的內容及大數據開發學習路線詳解

該包提交到Hadoop運行。

你不能java?Shell,Python可以,有一個叫做Hadoop流的東西。

如果你已經做了這些步驟,恭喜你,你的一隻腳已經進來了。

第二章:更有效的詞語

2.1學習點SQL

你知道數據庫嗎?你能寫SQL嗎?

如果不是,請學習一些SQL。

2.2 SQL版本號

在1.6,你寫了多少行代碼(或複製)?

例如:

選擇單詞,逐字計數(1);

大數據入門學者的學習的內容及大數據開發學習路線詳解

這就是SQL的魅力,編程需要幾十行,甚至一百行代碼,這句話就完成了;使用SQL來分析Hadoop上的數據,方便、高效、容易處理,而且趨勢更大。無論是離線計算還是實時計算,越來越多的大數據處理框架正在積極提供SQL接口。


分享到:


相關文章: