給大數據開發初學者的話

給大數據開發初學者的話

有些人想往大數據方向發展,但是該學哪些技術,學習路線是什麼樣的,只是覺得大數據很火,就業很好,薪資很高。如果自己很迷茫,為了這些原因想往大數據方向發展,也可以,那麼我就想問一下,你的專業是什麼,對於計算機/軟件,你的興趣是什麼?是計算機專業,對操作系統、硬件、網絡、服務器感興趣?是軟件專業,對軟件開發、編程、寫代碼感興趣?還是數學、統計學專業,對數據和數字特別感興趣。

先扯一下大數據的4V特徵:

  • 數據量大,TB->PB
  • 數據類型繁多,結構化、非結構化文本、日誌、視頻、圖片、地理位置等;
  • 商業價值高,但是這種價值需要在海量數據之上,通過數據分析與機器學習更快速的挖掘出來;
  • 處理時效性高,海量數據的處理需求不再侷限在離線計算當中。

現如今,正式為了應對大數據的這幾個特點,開源的大數據框架越來越多,越來越強,先列舉一些常見的:

文件存儲:Hadoop HDFS、Tachyon、KFS

離線計算:Hadoop MapReduce、Spark

流式、實時計算:Storm、Spark Streaming、S4、Heron

K-V、NOSQL數據庫:HBase、Redis、MongoDB

資源管理:YARN、Mesos

日誌收集:Flume、Scribe、Logstash、Kibana

消息系統:Kafka、StormMQ、ZeroMQ、RabbitMQ

查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分佈式協調服務:Zookeeper

集群管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager

數據挖掘、機器學習:Mahout、Spark MLLib

數據同步:Sqoop

任務調度:Oozie

……

眼花了吧,上面的有30多種吧,別說精通了,全部都會使用的,估計也沒幾個。

今天呢先說說這些,後續小編會將自己學到的一點一點的分享給大家,希望真心學的小夥伴好好學習,其他小夥伴瞭解一下是不是也會提高自己朋友圈的level


分享到:


相關文章: