作為IT類職業中的“大熊貓”,大數據人才(數據工程師,數據分析師,數據挖掘師,算法工程師等)、在國內人才市場可謂是一顆閃耀的新星。由於剛剛出於萌芽階段,這個領域出現很大的人才缺口。
數據人才做什麼?
大數據是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大數據處理相關的職業,通過對數據的挖掘分析來影響企業的商業決策。大數據工程師就是一群“玩數據”的人,玩出數據的商業價值,讓數據變成生產力。大數據和傳統數據的最大區別在於,它是在線的、實時的,規模海量且形式不規整,無章法可循,因此“會玩”這些數據的人就很重要。
因此,分析歷史、預測未來、優化選擇,這是大數據人才在“玩數據”時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策,找出最優化的結果。
需要具備的能力
精通SQL
如果英語是業務的交流工具,那麼SQL就是數據的交流工具。一個不會流利的英語的業務人員能有多大的成就?不管任何技術時代的產生和更替,SQL一直是數據的通用語。數據工程師應該有能用SQL表達任何‘相關子查詢’和窗口函數複雜度的技術能力。對數據工程師來說初始SQL/DML/DDL簡單到根本沒有難度。即使是沒有接觸過SQL的人,他也能讀懂並明白數據庫的執行計劃,瞭解所有步驟,知道程序怎麼被調用,連接算法的不同和執行計劃內的分佈式維度。
數據模型技能
作為一個數據工程師,有對實體-關係模型的認知反射,規範化的清晰認識,權衡反規範化的敏銳直覺。數據工程師應該熟悉維度建模及相關概念與術語。
ETL設計
能夠寫出有效率、有彈性的、“可發展”的ETL任務是一個關鍵。
架構項目
就如任何一個領域的專家的專業技能一樣,數據工程師需要一個較高層次的綜括,對大多數的工具,平臺,庫,和其他供他支配的資源的瞭解。認識到不同類型的數據庫、計算引擎、流處理器、消息隊列、工作流協調器、序列化格式及其他相關技術的屬性、用例、微妙之處。在設計解決方案的時候,他應該有能力選擇即將要使用的技術,並有一個構想去協調怎麼使他們一起更好地工作。
知識體系
1.大數據通用處理平臺
Spark
Flink
Hadoop
2.分佈式存儲
HDFS
3.資源調度
Yarn
Mesos
4. 機器學習工具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微軟分佈式機器學習工具)
5. 數據分析/數據倉庫(SQL類)
Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
ElasticSearch
Logstash
Kibana
6. 消息隊列
Kafka(純日誌類,大吞吐量)
RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ
7. 流式計算
Storm/JStorm
Spark Streaming
Flink
8.日誌收集
Scribe
Flume
9. 編程語言
Java
Python
R
Ruby
Scala
10. 數據分析挖掘
MATLAB
SPSS
SAS
11. 數據可視化
R
D3.js
ECharts
Excle
Python
12 機器學習
機器學習基礎
聚類
時間序列
推薦系統
迴歸分析
文本挖掘
決策樹
支持向量機
貝葉斯分類
神經網絡
深度學習
機器學習工具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微軟分佈式機器學習工具)
大數據人才的職業發展
薪酬待遇
作為IT類職業中的“大熊貓”,大數據人才的收入待遇可以說達到了同類的頂級。國內IT、通訊、行業招聘中,有10%都是和大數據相關的,且比例還在上升。在美國,大數據工程師平均每年薪酬高達17.5萬美元,而據瞭解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。
職業發展路徑
由於大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿里巴巴的首席數據官。這個職位的大部分人會往研究方向發展,成為重要數據戰略人才。另一方面,大數據工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。
閱讀更多 數據分析和挖掘 的文章