怎樣成為優秀的大數據工程師?需要具備哪些技術?

苡居Ync66290


大數據工程師有不少細分方向,不同的方向需要具備不同的知識結構,通常情況下大數據工程師分為四個具體的工作領域,分別是大數據底層平臺研發、大數據應用開發、大數據分析和大數據運維,其中大數據平臺研發工程師的數量佔比較少,屬於大數據領域的高端人才,往往從業者在研究生期間主攻的方向就是大數據平臺研發。

大數據應用開發工程師是大數據領域一個比較熱門的崗位,由於目前大數據正在處在落地應用的階段,所以有大量的傳統應用需要進行大數據改造,因此大數據應用開發崗位有較多的人才需求。這個崗位需要掌握的知識結構包括大數據平臺體系結構,比如目前常見的Hadoop、Spark平臺,以及眾多組件的功能和應用,另外還需要掌握至少一門編程語言,比如Java、Python、Scala等,這些編程語言是可以開發落地應用的。

大數據分析工程師是大數據領域非常重要的崗位,因為大數據的核心之一是數據價值化,而數據價值化的核心則在於數據的分析和應用,所以數據分析是大數據應用的一個重點所在。大數據分析工程師需要掌握的知識結構包括算法設計、編程語言以及呈現工具,算法設計是大數據分析師需要掌握的重點內容,而編程語言的作用則是完成算法的實現。另外,大數據分析師還需要掌握一些常見的分析工具,比如一些常見的BI工具,在一些比較簡單的場景下BI工具能完成大量的工作,並生成呈現界面。看一個使用Python中scipy庫的應用:

大數據運維工程師的主要工作內容是搭建大數據平臺、部署大數據功能組件、配置網絡環境和硬件環境、維護大數據平臺,大數據運維工程師需要具備的知識結構包括計算機網絡、大數據平臺體系結構、編程語言(編寫運維腳本)等,通常情況下,大數據運維工程師也需要對數據庫有深入的瞭解。

大數據是我的主要研究方向之一,目前我也在帶大數據方向的研究生,我會陸續在頭條寫一些關於大數據方面的文章,感興趣的朋友可以關注我的頭條號,相信一定會有所收穫。

如果有大數據方面的問題,也可以諮詢我,謝謝!


IT人劉俊明


樓主這樣問,應該是個剛接觸大數據的同學,咱不來虛的,實打實回答一下。

第一,這兩個問題順序反一下,比較合理。先掌握一些大數據技術,再去成為優秀的大數據工程師。

第二,如果是培訓或者自學,基本不會去做什麼底層平臺研發,根本不用考慮,就是放眼整個國內都是用的國外開源的大數據生態技術,直到近兩年才有一些國內大廠貢獻了幾個不錯的組件,但在企業裡落地使用情況怎麼樣還不好說。華為,騰訊都開源有自己的大數據組件,有的已經成為了Apache基金會的頂級項目,說明國內在底層,生態上的貢獻已經有一席之地了,但這種源碼級工程師在各行各業都不太多的。

那麼,做大數據工程師主要工作就是應用研發,數據分析和運維部署這三塊(說實話,安全這一塊也很重要,在大數據這塊尤其重要)。目前來看中小企業是不會特別區分這些崗位的,很多小企業連個正式的運維都沒有的,經常是一人身兼多職,有機會有本事的同學也可以到大廠感受一下研發氛圍和流程。

做好了上述三個方面工作自然就算的上優秀了。應用研發方面要求熟悉大數據組件Hadoop,Hive,Spark,Kafka,Flink,Hbase,ES等,我這裡說的,你只要摸透精通其中三個,能力就不虛現在業內一半的大數據從業者。為什麼這麼說?大數據概念也就15年火起來,在這之前大學正經的大數據科班出身可以說不存在的,除了阿里騰訊等大廠自身數據優勢(被迫)成長起來的一點大牛之外,業內普通的大數據工程師哪個不是培訓或Java轉型過去的?打著高薪噱頭培訓機構蜂擁而至魚龍混雜,學生水平能力參差不齊,光學歷上都有初中畢業到碩士畢業的差別(我沒聽說博士去培訓這個東西的)。不吹不黑,培訓機構剛出來的良品率低到不能看。



上述三個職責方面,運維部署其實排在最前,一般來說包含搭建大數據環境,升級集群和安全維護這些(安全工作能做好,你很優秀!)。部署偽集群一般也是學習大數據的第一步,不弄個集群去學習練手,其他都是紙上談兵。各個課程大綱也都會講如何配置搭建。然後學習路徑也可以按照機構課程表來,畢竟他們目標是速成,想快速通關的看機構的課表沒錯了。想把基本功做紮實的就再參考大數據知識圖譜來查漏補缺吧。

這個全都能做到,技術框架的硬本事已經無可挑剔了。程序員的基本素養補一補(代碼規範之類),再看數據分析這一塊。大數據工程師區別於其他軟件開發工程師的地方,我覺得應該在這裡。你需要有自己的想法和數據分析能力,有一定數據敏感性,不能一直等著領導boss給你派活。概率統計,分析挖掘這一塊的知識要學習,提升軟實力。你要有做數據產品的頭腦,也要有數據驅動的心思。

先手碼到這,我從事大數據工作,現在一小公司負責數據業務,還有什麼疑問困惑可以評論或私信我,方便給出具體可行的建議。


小七讀書漲知識


看你是做哪方面的,大數據也分很多種,最基本的大數據組件要會。


分享到:


相關文章: