3年Java开发转型大数据，如何跳出CRUD舒适区？

2020-02-14 18:21:47 高級大數據工程師

自我介绍

我是小张，不是科班出身，大学学的是生物工程，后来也是自学加培训入的行，入行就做了 3年的Java 开发，后来觉得大数据前景更好一些，就想着转型大数据，经过x哥指导后，在去年 7月份成功入职了一家大数据公司。

公司一般，不是大厂，不过目前我感觉还行吧，薪资涨了8K，而且我也算是大龄开发了，即将奔 3 ，工作前两年光顾着玩了，没想着规划，导致落下了很多东西，现在跟着大家一起努力，搞好大数据。

转型前

在做大数据之前，我做了快三年的 Java 后台开发，第一家公司也算是一家中规中矩的公司，没啥复杂业务场景，常年的 CRUD，基本也用不上算法跟数据结构的优化，常规的 Java Api 就足以应付日常需求了。

我想学大数据的想法萌生在去年国庆节那段时间，具体也没啥原因就是感觉大数据未来可能会更好一些，同时也觉得转大数据有 java 基础会好转些，于是便在去年工作之余自学大数据了，当然 Java 未来也不差，最近火的微服务那一套掌握了也够吃得开了。

为什么转型

其实要说到为什么转型，这个还真没啥理由，可能是有些受当时热门技术的影响和薪资方面的影响吧。

在刷 Boss 招聘的时候，总感觉一般的大数据岗位比一般 java 岗位薪资要高，另外就是前些年的大数据热，各大高校也开了大数据课，时间也是成本啊，万一等新一届的大数据专业的大学生毕业了，到时候我就是再想转可能都没机会转了。

刚开始转型的行动和心理

说到刚开始转型的时候，其实心里特别没底的，最先的就是去网上找了大数据视频，一边看视频，一边学，要知道看视频效率是非常低的，但是没办法，总归人家视频中有一套体系，按着体系来学习总不会差太多，于是便开始了漫长的视频学习，整个视频看完大概花了3~4个月的时间，都是下班或者周末时间看的，说实话看完记住的真是不多，当时也没有什么好的办法，好在视频里也有对应的小项目可以做做，一来二去，跟着视频就到了年后。

最开始转型的时候最苦恼的就是没有规划，也没人问，不知道自己处于什么位置，漫无目的的跟着视频走效率也不高。

转型过程

过年的时候一次巧合我刷到了x哥的帖子，那上面公众号说有大数据的学习方法，一开始我是抱着怀疑的态度试试的，因为视频看的差不多了，打算就今年要出去面试了。之后要了份面经，边上班边刷面经，差不多一个月的时间吧，面经上那些简单的面试题算是掌握了，而那些源码级别的问题说实话我到现在也没弄明白。

之前光顾着按部就班地看视频，不知哪些是重点哪些是可以跳过的，看完也觉得似懂非懂，看项目视频的时候抓不到重点，无法与真实场景连接在一起。

要说准备转型的过程中的我觉得比较困难的点还是自己学习的时候没有方向感，没有重点。每个人的经历不一样，学的知识可能有很大差别，找到适合自己的才是最好的，知道自己的进度如何，知识体系差在哪，及时补充

，这点非常重要。

面试过程

在去年7 8 月份的时候我面试了几家大数据公司，由于我是从 java 转过来的，侧重点包括了 java 和大数据，面试对 java 基础和大数据的框架考察的比较详细，hadoop 读写、spark分区机制等是常问的面试题。

当然面试也肯定离不开项目，我是把自己工作经历加上了大数据的知识，这边感谢大疯哥帮忙整合项目，给了我一些方向和思路，结合自身项目的业务场景，离线、实时都有涉及。

由于我面的不是大厂，可能考察的知识并不是很深入，x哥规划的知识体系基本上覆盖了考察的知识点，剩下的就是结合业务场景来说说为什么使用某种技术，解决了啥问题之类的了。最后也是比较幸运，找到了比较合适的公司。

转型后日常工作

新入职的这家公司是做舆情分析的，到现在也差不多入职3个月了，我所在的组就叫数据组，主要负责两方面的工作：

1 实时数据的处理与落地，实时这块用的还是比较老的 jstorm+ rabbitMQ 的技术，整个数据处理过程包括数据采集+数据预处理+NLP属性+搜索引擎，我就处于数据预处理的环节。

技术上相对来说并不是很难，但刚入职还是得多花时间，一般的问题通过百度都能找的到。难就难在处理的业务上，到现在我也还在熟悉业务，业务上有很多语义、舆情上的东西，随着工作的深入，业务熟悉也在加深吧。

2 离线数据的再分析，计算，我们这叫做数据回溯，就是用旧数据做一些 sql统计，没啥复杂的逻辑， hive 常规操作就搞定了，不会像专门搞数仓的那种各种连接，各种函数的。

3 还有就是各种集群的常规维护吧，多少要会点集群维护的东西，我们这是没有专门的数据运维，所以一些集群操作，都是我们组的自己来弄的。

其实，说到日常工作，对我来说还是比较有挑战性，毕竟技术栈都是新的，接下去还要接入一些新框架Flink这些来替代现在的框架。公司业务也很深，不过我觉得业务这东西对现阶段的我来说可能还不是硬实力，但多少得懂点，所以未来我还是想再学学技术，先把技术弄扎实了，到哪都能混下去嘛

经验总结

1.要说经验的话，如果你还是学生的话，抓紧在学校学习的机会，打好基础最重要。要是你是已经工作的兄弟的话，咱本来就没多少时间学习，如果自己学习效率不高的话，赶紧找人给做个适合自己的计划，时间成本也是很高的啊，有人带跟自己憋完全就是两个世界。

2.另外学习要注重平时积累，最好别搞突击战，不管是视频也好，文档也好，耐心跟着进度学下去，平时努力了，结果应该不会太差。

3.别裸辞，能在职学尽量在职，学的差不多再离职集中面试不迟。

4.转型成功不代表一劳永逸，而是新阶段的开始，要做好终生学习的准备。

最后

给大家分享一下我自己的学习路线和自学时收集的一些还不错的学习书籍、视频还有大数据面试题。

学习路线：

Hadoop

工作流程（Shuffle）
实现全局排序与局部排序
实现join操作
数据倾斜
单机架构
工作流程
资源如何配置
三种调度器
单机架构
读写流程
副本策略
单机环境中SNN如何工作
HA架构
故障案例：例如block块损害该怎么修复
如何编译支持各类压缩
HadoopAPI使用
HDFS

Yarn
MapReduce

Zookeeper

单机/集群部署
过半机制
选举制度

Flume

Source
Channel
Sink
Interceptors
Channel Selector
Sink Precessors
Taildir
Exec
Spooling
Avro
自定义
Memory
File
HDFS
Logger
Kafka
Avro
自定义
架构
工作流程

Scala

List
Map
Array
Set
case class
伴生对象/类
数据类型
方法和函数
循环
类和对象

集合以及算子
模式匹配
隐式转换

Spark

DStream概念
Source
Transformations
Output
Performance Tuning
Kafka对接方式以及消费语义
DF/DS API
外部数据源
Tuning
概念
Transformations
Action
Cache
累加器和广播变量
Shuffle源码实现
内存模型
支持CDH
Building
架构以及工作流程
RDD
SQL
Streaming
Yarn提交作业流程以及如何提交
Spark调优

Kafka

单机/集群部署
常用命令
核心概念
offset管理
怎么保证数据一致性
调优

HBase

HBase-CDH环境部署/单机部署
核心概念
逻辑/物理模型
架构以及读写流程
RK设计
调优

需要获取书籍、视频的朋友：关注我帮忙转发一下文章，后台私信【资料】即可全部获取

以下是部分截图：

还有一些大数据方面的面试题，我已经整理成了一份文档想要获取的朋友，关注转发后私信【面试资料】即可

分享到:

閱讀更多 高級大數據工程師 的文章

關鍵字: 美好，一直在身边数据结构自我介绍

Java ==,equals ,hashCode 的比较

java 8 stream reduce详解和误区

那些年，我们踩过的 Java 坑

Java-POI-Excel导出包含跨行跨列 Excel表格样式格式化。

都说 Java 反射效率低，你知道原因在哪里么(好好看）

Java 10大装B写法，看完可以出去吹一波了！

Java 10 大装 B 写法，看完可以出去吹牛逼了！

Java 14 新特性

真没想到！Java 导出 Excel 表格会变得如此简单优雅

如何从 Java 8 升级到 Java 12，升级收益及问题处理技巧

Java 基础：循环结构

Java~类反射~JUnit和注解

Java 14 中令人期待的五大新特性！

Java 老矣，尚能饭否？2020 Java 生态系统报告出炉！

java 线程及线程池解析

Java 冻结或解除冻结Excel中的行和列

今天 Java 14 正式发布了！放弃 Java 8 行吗？

Java 状态报告：Java 8 占主导，Java 11 不算多

视频教程+案例，java、python、前端全套

JAVA 8与JAVA 11到底该怎么选？

Java 线程不安全分析及其解决方法

消灭 Java 代码的“坏味道”

03.02 把你的空闲时间利用起来，java，python有了这些，你也可以学会

03.01 Java 抽象类与模板设计模式详解

02.28 Java 实现数据表与简单Java类映射转换

2020 年 Java 技术报告：半数开发者仍在使用 Java 8「转」

02.21 2020 年 Java 技术报告：半数开发者仍在使用 Java 8「转」

Java 加密

「Java」分享一个使用DES加密和解密的算法

Java 基础（一）

01.28 Java 14 令人期待的 5 大新特性，打包工具终于要来了

java 开发与快递鸟对接的推送接口

JAVA 2020款山地车盘点

01.11 JAVA 2020款山地车盘点

JAVA 动态代理讲解及实现。面试官咱们换下一个问题。我还行

2020 年九大顶级 Java 框架

Java 程序员，你真的会写Java文档注释(Java Doc Comments)吗

java.lang.String 的 + 号操作到底做了什么事情？

Java 9 ← 2017，2019 → Java 13，Java 两年来都经历了什么？

11.27 Java 9 ← 2017，2019 → Java 13 ;来看看Java两年来的变化

大家都说 Java 反射效率低，你知道原因在哪里么

「转」 Java 无界阻塞队列 DelayQueue 入门实战

浅入浅出 Java 排序算法

专业第（3）课-Java 基本数据类型

04.03 Oracle 最后通牒：要 Java 8 更新先交钱！

Java IDE的历史变迁及idea的使用

小米太无耻了。

小米高管不只口嗨了，在国内拳打友商，在国外却开始下跪了。下一步，我猜小米会喊，高通爸爸，人家爱死你了，人家已经五体投地了哟。

蹭热点！说说我理解的手机包装盒事件。

今早醒来刷头条，发现大批米系自媒体铺天盖地发文嘲讽华为系自媒体，忍不住好奇了解了一下情况，原来是刚发布的一加8 海外版手机的手机包装盒上面印了一句话:with easy access to the Google apps you use most.而这句话也印在前段时间发布的小

苹果公司正式发布iPhone SE二代手机

新品名为“iPhoneSE”，拥有跟iPhone 8相似的外观，搭载了苹果当前最新的A13仿生芯片，具备IP67级别防水防尘能力，配备4.7英寸LCD材质屏幕，支持原彩显示，配备了Touch ID指纹识别。

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

至于受很多人关注的华为河图全面落地问题，官方有消息称，2020年第二季度会提供100个华为河图测试点，测试点到第四季度会增加至1000个，测试覆盖空间包括智慧园区、旅游景点、高铁站和机场等。

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

小米科技高管卢伟冰在近日表示，5G旗舰手机如果5G网络全开，功耗会比4G手机高20%，4000mAh的5G手机大约等于4G手机的3200mAH；今年Redmi坚持把5G手机的容量控制在4500mAh以上，也是考虑到5G网络耗电大的原因，今年很多5G智能手机均采用大电池的设计。

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

荣耀30Pro/30 Pro+同时搭载麒麟990 5G SoC，相应的其它配置更高：Wi-Fi6+，支持红外遥控，USB 3.0 Type-C接口。

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

现在，家庭宽带都在500M左右，大部分手机也不支持Wifi6标准，换Wifi 6无线路由器有点早，因为换了Wifi 6无线路由器网速也不会变快。

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

都说苹果手机卖不动了，可我看想买iPhone手机的人还是那么多，不然之前苹果公司怎么会限购？数据显示，3月份在国内的 iPhone 销量比 2 月份激增 416%，达到约 250 万部。

干翻华为P40系列荣耀30也玩中

而今天的华为发布会上，荣耀30、30 Pro、30 Pro +3个版本中、大、特大杯齐亮相，又一片全新5G SOC，麒麟985也要登场。

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

原来男子是从事互联网工作，后面觉得是互联网寒冬来了，就坚决辞去互联网工作，跨行选择了一个教育传统上市公司，可是第1天上班就蒙了，公司让做的活儿太死板了，没有发挥空间，同事一点都不友善，领导不放权，而且管理线超级单一，氛围一点都不一样，所以想离职。

苹果发布新款iPhoneSE，3299元起售

北京时间4月15日晚，苹果正式发布了新款iPhone SE，搭载了A13仿生芯片，支持最新的iOS 13系统，支持 18W快充，也支持Qi无线充电。SE机型苹果到目前为止只发布了两款，这是iPhone产品体系里小屏和低价的典型机器。

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

政府对于跨境电商行业的大力支持给咱们广大跨境电商卖家吃了一颗“定心丸”。我们所做的跨境电商事业在一定程度上不再是为个人谋利益，而是成为了中国产品走向世界，为国家赚取外汇的主力军。

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

在开始文章的干货分享之前，先给大家讲一个商家被用户勒索的案例。有一位朋友刚刚加入亚马逊跨境电商平台两个多月，在这期间有位美国用户在他店铺里面购买了一个毛巾架。

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

做过跨境电商朋友肯定知道，很多国外客户对于有些商品看不懂说明书，想索要商品使用视频教程，毕竟视频信息量大，容易理解和快速上手。

值得收藏！三类卖家三种选品方案，总有适合你的一个……

网上很多所谓的“大佬”喜欢吹嘘用某某工具就可以迅速选品效率，迅速取得很高效率等等，其实这类人就是在卖软件，收培训费用…

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

咱们今天不说主打欧美市场的亚马逊，只谈一下以东南亚市场为主的Shopee。好多人都听说过，但是没有真正了解过，好多人想加入Shopee但是顾虑重重，今天我来给大家普及一下关于Shopee小秘密。

马云终于要辞职了，留下的话句句触动人心

去年，在教师节这天，阿里巴巴集团创始人马云今天公开信宣布：一年后的阿里巴巴20周年之际，即2019年9月10日，也就是今天，他将不再担任集团董事局主席，却留下句句触动心灵的话！！

等等，明年5G手机将迎来大降价

11月26日下午，联发科技（MediaTek）在深圳举办“联发科技 5G方案发布暨全球合作伙伴大会”，正式发布了全新的5G新芯片品牌——“天玑”，同时带来了首款集成式旗舰级5G移动平台——天玑1000。

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

微信公开课pro版2019，为期两天微信大会正在广州火热进行中，本次会议主题为：同行WITHUS。微信这一款超级应用，已经深入到我们生活的方方面面，所以这48小时的未来盛宴必将吸引无数眼球。

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

小海按：美团的超级App梦想更近了？Tech星球文 | 马微冰陈桥辉头图 | IC Photo王兴曾说，“太多人关注边界，而不关注核心。”

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

而且在我们国内和美企中，有相当一部分觉得我们研发不了5G，更特说超越他们了。由于，我们在科技领域一直是，装备一代，研发一代，探索一代。

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

前段时间，英国首相呼吁员工在家办公的第二天，英国网络就出现大面积崩溃现象，不仅无法正常上网，而且电话也不能打、短信也不能发，给用户造成了很大的困扰。

为什么华为今天可以傲视群雄，在世界上立于不败之地？

为什么华为今天可以傲视群雄，在世界上立于不败之地？因为五年内没有人能超过整个5G领域，所以美国人无法超越，为什么？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

小海按：前端杀手级应用，后端云服务，在线办公「四小龙」之战开启。本来，在线办公更多的是阿里巴巴的主场。

2020年最强拍照旗舰来了华为P40系列多项业界首创香！

原来华为P40Pro+在上一代P30 Pro潜望式镜头横置长焦镜头模组和感光器件基础之上，进一步采用全新的多反射潜望式光路折叠技术，实现5次反射光路，光程比上一代潜望式长焦提升178%。

今天聊一聊直播

今天聊一聊直播突然谈到这个话题，是因为后知后觉的我，突然发现几乎所有大互联网公司都进军了网络直播行业，或者正在准备进军直播领域。

通过直播赚钱不容易，既要豁得出去，又要端得起来

今天咱们继续聊一聊直播吧当下，像头条、网易、百度等公司，看上去和直播八竿子打不着的公司，也开始涉足直播了。

AI和自动化技术联手，最终会让60%的工人失去现有的饭碗。

并非危言耸听，AI和自动化结合，势必会把数十亿人类踢出劳动力市场，数量巨大的失业工人，将会构成一个规模庞大的新阶级。AI最终会让60%的工人失去现有的饭碗。

这个网还能不能好好上了？今日全球IPv4地址正式耗尽

长期以来，一直令人担心的IPv4地址耗尽的问题，今天这一刻终于发生——所有43亿个IPv4地址已分配完毕，这意味着没有更多的IPv4地址可以分配给ISP和其他大型网络基础设施提供商。

12306系统不行？内行人告诉你它有多牛，阿里腾讯高手去了也膜拜

很多人认为12306系统很不好，之前我也是这么认为的，因为我觉得像双十一这么大流量，阿里都能承受住，为什么12306不行，这其实是误解，12306拥有着神一般的架构设计，平时的压力比淘宝大的多。

有内幕？美国防部授与微软百亿云合同，亚马逊不满发起诉讼

据路透社消息，10月25日，美国防部将高达100亿美元的十年期战略合同授予微软公司，这一举动引起亚马逊的不满。

未来之芯--RISC-V总部从美国迁往瑞士，华为、阿里是其成员

北京时间26日消息，国际开源芯片技术组织RISC-V基金会周一宣布，由于担心美国的贸易限制，计划将总部从美国特拉华州迁往瑞士。该基金会首席执行官卡利丝塔-雷蒙德（Calista Redmond）表示，希望确保美国以外的大学、政府和企业能够帮助开发其开源技术。

神话还能继续吗？几度过山车，比特币半年来首次跌破7000美元

比特币价格今年如同坐上过山车，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是这半年来的最低点了。说起比特币，给人印象最深刻的，莫过于2017年末到2018年初的暴涨了吧。

刘强东卸任后，突然宣布一个“好消息”，让马云措手不及！

苹果的疯狂其实从未停止，AirPower或将重新启航

可是，苹果事实上一直都在推动终端产品进入全面无线时代，所以他们是不太可能在真正意义上放弃这款产品。有外媒称，苹果目前正准备重新启动AirPower项目。

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰随着网络的不断发展，如何确保网络信息安全成为人们十分重视的问题。

互联网流量需求增大希腊民众“宅生活”考验网速

英国咨询公司Tech4i2报告指出，在疫情期间，希腊的互联网流量需求至少增长50%，但网速仅下降1.2%，而在大多数欧洲国家，网速平均下降了5%-7%。

互联网科技企业，传统办公模式该走向何处?

　　纽约，处于美国疫情震中的城市，工作模式大多是使用公司发放的电脑进行远程办公，而在这之前，部分互联网企业本来默认每周三为在家办公日，所以大家对在线办公可以说驾轻就熟。

微信又悄悄上线一新功能～网友却开始担心

备注后的群聊名称仅自己可见往后再也不用为分清乱糟糟的微信群聊而困扰不过从目前来看只有iOS端上线了这一新功能安卓用户还需要再等等并且此次更新为后台更新无需到AppStore更新即可看到这个新功能该功能上线后网友们纷纷站队但也有网友视野开阔担心起另一件事对于微信新功能群备注你觉得实

正式确认！孙正义退出市值5959亿阿里，20年与马云成就彼此

文：小娜说到孙正义这个名字，我们很多人都知道他是日本软银集团的创始人兼总裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成为今天的阿里，与孙正义的投资是分不开的。当时，马云和孙正义仅仅交谈了五分钟，孙正义当即就决定投资阿里，而且一下就投资2000万美元。

科技添柴“非接触经济”升温

新华社记者王全超摄中国同拉美和加勒比国家举行视频工作会议，就新冠肺炎疫情防控开展交流。亚历山大·培尼亚摄在中国科学技术大学附属第一医院，乘客用“无接触电梯按钮”操作电梯。

好像在哪见过？华为nova7官宣余承东:何必只有一点点

全新iPhoneSE根据此前爆料，此次华为nova7系列将有nova7 SE、nova7和nova7 Pro三个版本，可能会采用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”两种芯片组合。

行业红利、资本涌入，疫情后的在线教育聚师网如何“涅槃”

2018年，线下培训机构受到了相关部门政策的影响，整体发展势头趋降，然而市场上对于教育的需求却在不断增加，于是，大量学员开始把需求放到了线上，其中，职业教育在这方面的变化尤其明显。

数字货币真的来了？首吃螃蟹者传出，碰一碰功能露脸

苏州相城区政府相关人士对此未予置评，区金融局人士表示“不便答复”，其他多个当地机关单位称尚不知情，央行苏州市中心支行表示“以总行口径为准”，央行总行方面未予确认。新京报记者程维妙陈鹏编辑岳彩周校对薛京宁

实例 | 200 SMART运动控制基本指令详解

C_Dir:表示电机的当前方向信号状态，0 = 正向 1 = 反向。 START:触发开始发脉冲信号，必须要在运动轴空闲时发送一次信号，必须用边沿触发。