很多人都知道大數據很受歡迎。他們的工作很好,薪水也很高。他們希望朝著大數據的方向發展。但是我們學到了什麼技術和路線呢?
大數據的三個發展方向,平臺建設/優化/運行/維護/監控,大數據開發/設計/架構,數據分析/挖掘。
首先,說大數據的4V特徵:
數據量大,TB-PB
有多種類型的數據,如結構化的、非結構化的文本、日誌、視頻、圖片、地理位置等。
商業價值很高,但是通過數據分析和機器學習需要大量的數據挖掘。
處理時間非常高,對海量數據處理的需求不再侷限於離線計算。
現在,為了應對這些大數據的特點,開源大數據框架正變得越來越強大。
文件存儲:Hadoop HDFS,Takyon,KFS
離線計算:Hadoop MapReduce,火花
流媒體,實時計算:風暴,火花流,S4,蒼鷺
K-V,NoSQL數據庫:HBase,ReiIS,MangoDB
資源管理:紗線,Mesos
日誌收集:匯,劃線,LogSTASH,Kibana
消息系統:卡夫卡,StruMQ,Zrimq,RabByMQ
查詢分析:蜂箱,KORAS,豬,出版社,菲尼克斯,SARKSQL,鑽機,弗蘭克,麒麟,Druid
分佈式協調服務:動物園管理員
集群管理和監控:AMBARI,Ganglia,NAGIOS,Cloudera管理器
數據挖掘與機器學習:火花MLLIB
數據同步:Sqoop
任務調度:OZIE
…
它們有30多種。不要說他們精通。它們都被使用了。
第二個方向(開發/設計/架構)進行了詳細討論,這是很容易找到在這個方向。
第一章:Hadoop的第一個熟人
不管你有什麼問題,試著自己去搜索和解決。
1.2參考信息優先於公文
特別是對於入境,官方文件總是首選文件。
我相信這個地區的大多數人都是文化人,所以跟上英語是不可能的。請參閱第一步。
1.3讓Hadoop前進
Hadoop可以被看作是大數據存儲和計算的創始人。大多數開源大數據框架現在依賴於Hadoop或者與它們兼容。
關於Hadoop,你至少應該找出以下幾點:
Hadoop 1,Hadoop 2
MapReduce
那扇門,Tan Ode
JobTracker,TaskTracker
紗線,資源管理器
要構建自己的Hadoop,請使用第一步和第二步來運行它。
建議先安裝安裝程序包命令行,而不是使用管理工具。
1.4嘗試使用Hadoop
HDFS目錄操作命令;
上傳和下載文件命令;
提交運行MapReduce示例程序;
打開Hadoop Web界面以查看作業的運行狀態並檢查作業運行日誌。
知道Hadoop的系統日誌在哪裡。
1.5你應該知道他們的原則。
MapReduce:如何劃分和征服
HDFS:數據在哪裡,什麼是副本;
什麼是紗線和它能做什麼;
那門在地球幹什麼?
資源管理者到底在做什麼;
1.6編寫MapReduce程序
請根據單詞計數的例子寫一個單詞計數程序。
該包提交到Hadoop運行。
你不能java?Shell,Python可以,有一個叫做Hadoop流的東西。
如果你已經做了這些步驟,恭喜你,你的一隻腳已經進來了。
第二章:更有效的詞語
2.1學習點SQL
你知道數據庫嗎?你能寫SQL嗎?
如果不是,請學習一些SQL。
2.2 SQL版本號
在1.6,你寫了多少行代碼(或複製)?
例如:
選擇單詞,逐字計數(1);
這就是SQL的魅力,編程需要幾十行,甚至一百行代碼,這句話就完成了;使用SQL來分析Hadoop上的數據,方便、高效、容易處理,而且趨勢更大。無論是離線計算還是實時計算,越來越多的大數據處理框架正在積極提供SQL接口。
閱讀更多 心在遠方ios 的文章