作为IT类职业中的“大熊猫”,大数据人才(数据工程师,数据分析师,数据挖掘师,算法工程师等)、在国内人才市场可谓是一颗闪耀的新星。由于刚刚出于萌芽阶段,这个领域出现很大的人才缺口。
数据人才做什么?
大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
因此,分析历史、预测未来、优化选择,这是大数据人才在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策,找出最优化的结果。
需要具备的能力
精通SQL
如果英语是业务的交流工具,那么SQL就是数据的交流工具。一个不会流利的英语的业务人员能有多大的成就?不管任何技术时代的产生和更替,SQL一直是数据的通用语。数据工程师应该有能用SQL表达任何‘相关子查询’和窗口函数复杂度的技术能力。对数据工程师来说初始SQL/DML/DDL简单到根本没有难度。即使是没有接触过SQL的人,他也能读懂并明白数据库的执行计划,了解所有步骤,知道程序怎么被调用,连接算法的不同和执行计划内的分布式维度。
数据模型技能
作为一个数据工程师,有对实体-关系模型的认知反射,规范化的清晰认识,权衡反规范化的敏锐直觉。数据工程师应该熟悉维度建模及相关概念与术语。
ETL设计
能够写出有效率、有弹性的、“可发展”的ETL任务是一个关键。
架构项目
就如任何一个领域的专家的专业技能一样,数据工程师需要一个较高层次的综括,对大多数的工具,平台,库,和其他供他支配的资源的了解。认识到不同类型的数据库、计算引擎、流处理器、消息队列、工作流协调器、序列化格式及其他相关技术的属性、用例、微妙之处。在设计解决方案的时候,他应该有能力选择即将要使用的技术,并有一个构想去协调怎么使他们一起更好地工作。
知识体系
1.大数据通用处理平台
Spark
Flink
Hadoop
2.分布式存储
HDFS
3.资源调度
Yarn
Mesos
4. 机器学习工具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习工具)
5. 数据分析/数据仓库(SQL类)
Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
ElasticSearch
Logstash
Kibana
6. 消息队列
Kafka(纯日志类,大吞吐量)
RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ
7. 流式计算
Storm/JStorm
Spark Streaming
Flink
8.日志收集
Scribe
Flume
9. 编程语言
Java
Python
R
Ruby
Scala
10. 数据分析挖掘
MATLAB
SPSS
SAS
11. 数据可视化
R
D3.js
ECharts
Excle
Python
12 机器学习
机器学习基础
聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络
深度学习
机器学习工具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习工具)
大数据人才的职业发展
薪酬待遇
作为IT类职业中的“大熊猫”,大数据人才的收入待遇可以说达到了同类的顶级。国内IT、通讯、行业招聘中,有10%都是和大数据相关的,且比例还在上升。在美国,大数据工程师平均每年薪酬高达17.5万美元,而据了解,在国内顶尖互联网类公司,同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%,且颇受企业重视。
职业发展路径
由于大数据人才数量较少,因此大多数公司的数据部门一般都是扁平化的层级模式,大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队,而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。这个职位的大部分人会往研究方向发展,成为重要数据战略人才。另一方面,大数据工程师对商业和产品的理解,并不亚于业务部门员工,因此也可转向产品部或市场部,乃至上升为公司的高级管理层。
閱讀更多 數據分析和挖掘 的文章