2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

簡介: 2018年medium上一篇博文分析了數據科學家最需要的技能,那篇文章引起了很大的反響,在medium上有超過11000次點贊,並被翻譯成幾種語言,成為了2018年11月KD Nuggets最受歡迎的文章。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

編譯:趙吉克

2018年medium上一篇博文分析了數據科學家最需要的技能,那篇文章引起了很大的反響,在medium上有超過11000次點贊,並被翻譯成幾種語言,成為了2018年11月KD Nuggets最受歡迎的文章。

2018年文章鏈接:

https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db

一年多過去了,2019的作者也發佈了最新的分析,讓我們看看有什麼變化。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

2018年的文章考察了對統計和溝通交流等一般技能的需求以及對Python和R等技術的需求。軟件技術的變化一定快於一般技能需求上的變化,所以在本更新中只包括技術部分。

我們搜索了SimplyHired、Indeed、Monster和LinkedIn以查看在美工作的列表中哪些關鍵詞和“數據科學家”共同出現。這一次,我們決定用Request和Beautiful Soup包來獲取工作列表,而不是手工搜索。

事實證明,LinkedIn的爬取要困難得多,因為查看工作的列表的準確數字需要身份驗證。我決定使用Selenium進行無頭瀏覽。2019年9月,美國最高法院對LinkedIn做出了判決,允許其數據被爬取。儘管如此,在幾次抓取嘗試後,還是無法訪問賬戶,這個問題可能源於刷新率限制。

不管怎麼說,微軟擁有LinkedIn,Randstad Holding擁有Monster, Recruit Holdings擁有Indeed和SimplyHired。

無論如何,LinkedIn的數據可能無法提供從去年到今年的蘋果公司職位對比。今年夏天,LinkedIn的一些技術職位搜索詞每週都會出現大幅波動。這可能是由於他們試圖通過使用自然語言處理來衡量搜索目的,因而對他們的搜索結果算法進行了實驗。相比之下,另外三個搜索網站在過去兩年中出現的“數據科學家”相關職位列表數量則相對接近。

基於這些原因,LinkedIn被排除在本文2019年和2018年的分析之外。

對於每個工作搜索網站,我們計算了該網站中出現的每個關鍵詞在所有數據科學家工作列表中所佔的百分比。然後,在三個站點上為每個關鍵字取這些百分比的平均值。

同時手動調查了新的搜索詞以及那些看起來很有前途的詞。在2019年,沒有新的搜索詞達到佔全體5%的佔有水平,這是下述結果中使用的截斷指標。

PyTorch職位需求翻番

我們採用四種方法來查看每個關鍵字的結果:

  • 方法1:對於每個求職網站,在每個年度用包含關鍵詞的列表數量除以包含data scientist的搜索詞總數。然後取三個網站的平均值。
  • 方法2:看看2018年至2019年這些列表的平均比例變化的絕對值。
  • 方法3:看看2018年至2019年這些列表的平均比例變化的相對百分比。

在完成上面的第一個步驟之後,計算每個關鍵字相對於該年度其他關鍵字的排名,然後計算每一年的排名變化。

觀察前三個帶有柱狀圖的選項,然後我們將展示一個包含數據的表並討論結果。

這是上文中方法1對應的2019年圖表,顯示Python出現在近75%的列表中。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

這是上文中方法2的圖表,顯示了2018年至2019年職位列表中某項技能需求的變化。AWS顯示上升了5%。在2019年和2018年上市的公司中,這一比例分別為19.4%和14.6%。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

這是上文方法3對應的圖表,顯示了每年的百分比變化。2018年,PyTorch上榜職位需求數平均增長了108.1%

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

以下是上述圖表中的信息用表格形式展示的結果,按2018年至2019年上榜職位比例在三家網站平均後的變化百分比排序。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

穩居榜首的python,落寞的R

在不到14個月的時間內技術需求發生了相當大的變化!

優勝者

Python仍然排名第一。到目前為止,它是最常用的語言。幾乎霸佔了四分之三的榜單,與2018年相比,Python使用量有了可觀的增長。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

SQL使用量快速提升。它幾乎快要超過獲得第二高平均分數的R語言。如果繼續保持該趨勢,SQL很快將成為真正的第二。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

傑出的深度學習框架得到了廣泛使用。PyTorch在所有關鍵字中的增幅最大,Keras和TensorFlow也表現出色。Keras和PyTorch在排名中均上升了4位,TensorFlow上升了3位。請注意,由於PyTorch的起始平均值較低,TensorFlow的當前平均值仍是PyTorch平均值的兩倍。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

數據科學家對雲平臺技能的需求越來越大。AWS的出現頻率高達20%,Azure約10%。Azure在排名中躍升了四位。

2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番


2019數據科學家技能盤點,Python大火,Pytorch職位需求翻番

落敗者

R語言的總體平均下降幅度最大。基於其他調研,這一趨勢不足為奇。Python顯然已經取代R成為數據科學的首選語言。 儘管如此,R仍然非常受歡迎,出現在55%的榜單中。如果您熟悉R語言,請不要沮喪,但如果您想要掌握需求量更大的技能,請考慮學習Python。

許多Apache產品受到歡迎,包括Pig,Hive,Hadoop和Spark。Pig的排名下降了5位,比任何其他技術都下降得多。Spark和Hadoop仍然是人們普遍希望掌握的技能,但是我認為,轉向其他大數據技術已經成為一種趨勢。

專有的統計軟件包MATLAB和SAS使用量急劇下降。 MATLAB在排名中下降了四位,而SAS從第六位下降到第八位。與2018年的平均水平相比,兩種語言均出現了大幅下降。

推薦一個學習路徑

如果你剛開始從事數據科學,我建議你專注於需求增長和有發展潛力的技術,並且每次只專心學習一種技能

以下是我推薦的學習路徑:

  • 學習Python以掌握常規編程;
  • 學習pandas來進行數據操作;
  • 通過Scikit-learn庫學習機器學習;
  • 學習用於高效查詢相關數據庫的SQL;
  • 學習Tableau以進行數據可視化;
  • 關於雲計算平臺,基於AWS的市場份額,它是一個不錯的選擇;
  • 學習一個機器學習框架,Keras現在與TensorFlow緊密結合,因此它是一個很好的起點,PyTorch也在迅速發展。

這是我的總體學習路徑建議。按照你的需要各取所需吧。


分享到:


相關文章: