2020年裡5個必須具備的數據科學技能

編譯:ronghuaiyang

導讀

長期以來,“R, Python, SQL和機器學習”一直是數據科學家的標準工作描述。但隨著該領域的發展,這已不足以在就業市場上保持競爭力。

2020年裡5個必須具備的數據科學技能

更新你的技能,為2020年數據就業市場準備!

數據科學是一個競爭激烈的領域,人們正在迅速積累越來越多的技能和經驗。這導致了機器學習工程師的工作描述越來越豐富,因此我對2020年的建議是,所有的數據科學家也需要成為開發人員。

為了保持競爭力,你一定要為新工具帶來的新工作方式做好準備。

1. 敏捷

敏捷是一種組織工作的方法,已經被開發團隊大量使用。數據科學的角色越來越多地由那些最初的技能是純軟件開發的人來扮演,這就產生了機器學習工程師的角色。

2020年裡5個必須具備的數據科學技能

越來越多的數據科學家/機器學習工程師被管理為開發人員:不斷地改進現有代碼庫中的機器學習元素。

對於這種類型的角色,數據科學家必須瞭解基於Scrum方法的敏捷工作方式。它為不同的人定義了幾個角色,這個角色定義確保了持續的改進和順利地實現。

2. Github

Git和Github是為開發人員提供的軟件,在管理不同版本的軟件時非常有用。它們跟蹤對代碼庫所做的所有更改,此外,當多個開發人員在同一時間對同一項目進行更改時,它們還為協助提供了真正的便利。

2020年裡5個必須具備的數據科學技能

隨著數據科學家的角色變得越來越偏重於開發,使用這些開發工具就成為了關鍵。Git正在成為一種重要的工作需求,要適應使用Git的最佳實踐需要一定的時間。當你獨自一人或與他人合作時,很容易開始使用Git,但是當你加入一個有Git專家的團隊,而你仍然是一個新手時,你可能會比想象的更加困難。

2020年裡5個必須具備的數據科學技能

3. 工業化

數據科學也在改變的是我們思考項目的方式。數據科學家仍然是用機器學習回答業務問題的人,一如既往。但是,越來越多的數據科學項目是為生產系統開發的,例如作為大型軟件中的微服務。

2020年裡5個必須具備的數據科學技能

與此同時,高級模型的CPU和RAM消耗越來越大,特別是在處理神經網絡和深度學習時。

對於數據科學家的工作描述,不僅要考慮模型的準確性,還要考慮項目的執行時間或其他工業化方面,這一點變得越來越重要。

2020年裡5個必須具備的數據科學技能

4. 雲和大數據

雖然機器學習的工業化正成為數據科學家的一個嚴重的約束,但它也成為數據工程師和IT的一個嚴重約束。

2020年裡5個必須具備的數據科學技能

當數據科學家可以致力於減少模型所需的時間時,IT人員可以通過改變速度更快的計算服務來做出貢獻,這些計算服務通常可以通過以下一種或兩種方式獲得:

  • 雲:將計算資源轉移到外部供應商,如AWS、Microsoft Azure或谷歌雲,使得建立一個可以從遠處訪問的非常快速的機器學習環境變得非常容易。這要求數據科學家對雲功能有基本的瞭解,例如:使用遠程服務器而不是自己的計算機,或者使用Linux而不是Windows / Mac。
2020年裡5個必須具備的數據科學技能

PySpark可以在並行(大數據)系統上編寫Python

  • 大數據:更快的第二個方面是使用Hadoop和Spark,這兩個工具允許同時在多臺計算機(工作節點)上並行處理任務。這要求使用不同的方法來實現數據科學家的模型,因為你的代碼必須允許並行執行。

5. 自然語言處理, 神經網絡和深度學習

最近,數據科學家仍然認為NLP和圖像識別僅僅是數據科學的專門化,並不是所有人都必須掌握。

2020年裡5個必須具備的數據科學技能

你需要理解深度學習:基於人腦思想的機器學習

但是,即使在“常規”業務中,圖像分類和NLP的用例也越來越頻繁。在當今時代,至少對這些模型沒有基本的瞭解是不可接受的。

即使你在工作中沒有此類模型的直接應用,也可以很容易地找到實際操作的項目,並使你能夠理解圖像和文本項目中所需的步驟。

祝你好運,同時提高你的技能,不要猶豫,保持關注

英文原文:https://towardsdatascience.com/top-5-must-have-data-science-skills-for-2020-a5a53226b168


分享到:


相關文章: