大數據人才職業規劃

大數據人才職業規劃

作為IT類職業中的“大熊貓”,大數據人才(數據工程師,數據分析師,數據挖掘師,算法工程師等)、在國內人才市場可謂是一顆閃耀的新星。由於剛剛出於萌芽階段,這個領域出現很大的人才缺口。

數據人才做什麼?

大數據是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大數據處理相關的職業,通過對數據的挖掘分析來影響企業的商業決策。大數據工程師就是一群“玩數據”的人,玩出數據的商業價值,讓數據變成生產力。大數據和傳統數據的最大區別在於,它是在線的、實時的,規模海量且形式不規整,無章法可循,因此“會玩”這些數據的人就很重要。

因此,分析歷史、預測未來、優化選擇,這是大數據人才在“玩數據”時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策,找出最優化的結果。

需要具備的能力

精通SQL

如果英語是業務的交流工具,那麼SQL就是數據的交流工具。一個不會流利的英語的業務人員能有多大的成就?不管任何技術時代的產生和更替,SQL一直是數據的通用語。數據工程師應該有能用SQL表達任何‘相關子查詢’和窗口函數複雜度的技術能力。對數據工程師來說初始SQL/DML/DDL簡單到根本沒有難度。即使是沒有接觸過SQL的人,他也能讀懂並明白數據庫的執行計劃,瞭解所有步驟,知道程序怎麼被調用,連接算法的不同和執行計劃內的分佈式維度。

數據模型技能

作為一個數據工程師,有對實體-關係模型的認知反射,規範化的清晰認識,權衡反規範化的敏銳直覺。數據工程師應該熟悉維度建模及相關概念與術語。

ETL設計

能夠寫出有效率、有彈性的、“可發展”的ETL任務是一個關鍵。

架構項目

就如任何一個領域的專家的專業技能一樣,數據工程師需要一個較高層次的綜括,對大多數的工具,平臺,庫,和其他供他支配的資源的瞭解。認識到不同類型的數據庫、計算引擎、流處理器、消息隊列、工作流協調器、序列化格式及其他相關技術的屬性、用例、微妙之處。在設計解決方案的時候,他應該有能力選擇即將要使用的技術,並有一個構想去協調怎麼使他們一起更好地工作。

知識體系

1.大數據通用處理平臺

  • Spark

  • Flink

  • Hadoop

2.分佈式存儲

  • HDFS

3.資源調度

  • Yarn

  • Mesos

4. 機器學習工具

  • Mahout

  • Spark Mlib

  • TensorFlow (Google 系)

  • Amazon Machine Learning

  • DMTK (微軟分佈式機器學習工具)

5. 數據分析/數據倉庫(SQL類)

  • Pig

  • Hive

  • kylin

  • Spark SQL,

  • Spark DataFrame

  • Impala

  • Phoenix

  • ELK

  • ElasticSearch

  • Logstash

  • Kibana

6. 消息隊列

  • Kafka(純日誌類,大吞吐量)

  • RocketMQ

  • ZeroMQ

  • ActiveMQ

  • RabbitMQ

7. 流式計算

  • Storm/JStorm

  • Spark Streaming

  • Flink

8.日誌收集

  • Scribe

  • Flume

9. 編程語言

  • Java

  • Python

  • R

  • Ruby

  • Scala

10. 數據分析挖掘

  • MATLAB

  • SPSS

  • SAS

11. 數據可視化

  • R

  • D3.js

  • ECharts

  • Excle

  • Python

12 機器學習

機器學習基礎

  • 聚類

  • 時間序列

  • 推薦系統

  • 迴歸分析

  • 文本挖掘

  • 決策樹

  • 支持向量機

  • 貝葉斯分類

  • 神經網絡

  • 深度學習

機器學習工具

  • Mahout

  • Spark Mlib

  • TensorFlow (Google 系)

  • Amazon Machine Learning

  • DMTK (微軟分佈式機器學習工具)

大數據人才的職業發展

薪酬待遇

作為IT類職業中的“大熊貓”,大數據人才的收入待遇可以說達到了同類的頂級。國內IT、通訊、行業招聘中,有10%都是和大數據相關的,且比例還在上升。在美國,大數據工程師平均每年薪酬高達17.5萬美元,而據瞭解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。

職業發展路徑

由於大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿里巴巴的首席數據官。這個職位的大部分人會往研究方向發展,成為重要數據戰略人才。另一方面,大數據工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。


分享到:


相關文章: