如果想成爲數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

數據科學人才有缺口是明擺著的問題,就不用廢話了。

回答如題《如果想成為數據科學人才,需要必備哪些技能?》的問題,我們先要對頭部數據人才有一個清晰的界定。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

別緊張,以下內容都是針對人才的,不是天才,耐心和勤奮能夠幫上大忙。

(一)數據科學家的基礎是啥?

1.教育

數據科學家需要受過高等教育不是一個絕對的結論,因為例外一定存在。通常需要非常強大的教育背景來支持數據科學家所必需的知識深度。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

要成為數據科學家,可以主攻計算機科學、社會科學、物理科學、生物、醫學和統計學。最常見的研究領域是數學和統計學(32%),其次是計算機科學(19%)和工程學(16%)。任何這些學位都可以提供處理和分析大數據所需的基本技能。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

不是嚇唬人,除課堂學習外,課外的努力也是非常必要的,我指的是——驚人的必要。

(不要說我沒有把頭部數據人才和其他數據人才平均每天學習時間對比圖給你。不謝!)

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?


如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

2. R語言

對於數據科學家需要至少深入瞭解一種分析工具。R語言專為數據科學需求而設計。可以使用R語言來解決數據科學中遇到的任何問題。事實上,43%的數據科學家正在使用R語言來解決統計問題。

然而,不是嚇唬人,R語言有一個陡峭的學習曲線。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

(二)把計算機技術當做兵器庫

3. Python

Python是在數據科學角色中最常見的語言,當然別忘了Java,Perl或C / C ++。對於數據科學家來說,Python是優秀編程語言。這也是為什麼O'Reilly 調查的受訪者中有40%使用Python作為他們的主要編程語言。

由於其多功能性,可以將Python用於數據科學過程中幾乎所有步驟。它可以採用各種格式的數據,可以輕鬆地將SQL表導入代碼中。它允許創建數據集,可以在互聯網上找到所需的任何類型的數據集。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

4. Hadoop平臺

不是強求,但在許多情況下Hadoop的重要性非常靠前。擁有Hive或Pig的經驗也是一個很好的賣點。熟悉Amazon S3等雲工具也很有用。CrowdFlower對3490 LinkedIn數據科學工作進行的一項研究將Apache Hadoop評為數據科學家第二重要技能,評分為49%。

作為數據科學家,可能會遇到這樣的情況,即擁有的數據量超過了系統內存,或者需要將數據發送到不同的服務器,這就是Hadoop的用武之地。可以使用Hadoop快速將數據傳輸到各種系統上的點。可以使用Hadoop進行數據探索、數據過濾、數據採樣和彙總。

5. SQL數據庫/編碼

儘管NoSQL和Hadoop已經成為數據科學的一個重要組成部分,但仍然期望候選人能夠在SQL中編寫和執行復雜查詢。SQL(Structured Query Language,結構化查詢語言)是一種編程語言,可以執行添加,刪除和從數據庫中提取數據等操作。還可以執行分析功能和轉換數據庫結構。

作為數據科學家,需要精通SQL。這是因為SQL專門用於幫助訪問和處理數據。當使用它來查詢數據庫時,會提供見解,具有簡潔的命令,可以節省時間並減少執行困難,查詢所需的編程量。學習SQL將幫助數據科學家更好地理解關係數據庫並提升形象。不難想象,無法從數據庫中取數的數據科學家,會有多麼的尷尬。

6. Apache Spark

Apache Spark正在成為全球最受歡迎的大數據技術。它就像Hadoop一樣是一個大數據計算框架。唯一的區別是Spark比Hadoop更快。這是因為Hadoop讀取和寫入磁盤,這使得速度變慢,但Spark將其計算緩存在內存中。

Apache Spark專為數據科學而設計,更快地運行復雜的算法。當處理大量數據時,它有助於傳播數據處理,從而節省時間。它還有助於數據科學家處理複雜的非結構化數據集。可以在一臺機器或一組機器上使用。

Apache spark防止數據丟失。Apache Spark的優勢在於其速度和平臺,這使得開展數據科學項目變得容易。使用Apache spark,可以執行從數據採集到分佈計算的分析。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

7.機器學習和人工智能

大量數據科學家一開始並不精通機器學習領域和技術。這包括神經網絡、強化學習、對抗性學習等。如果想從其他數據科學家中脫穎而出,機器學習技術恐怕少不了,如監督機器學習、決策樹、邏輯迴歸等。這些技能將幫助解決預測等等的不同的數據科學問題。

人工智能爆發,機器學習要在不同領域應用。Kaggle在其中一項調查中發現,現在只有一小部分數據專業人員具備先進的機器學習技能,如監督機器學習、無監督機器學習、時間序列,自然語言處理、異常值檢測、計算機視覺、推薦引擎、強化學習和對抗性學習。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?


如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

需要處理大規模數據集的機會越來越多,所以需要熟悉機器學習。

不會的趕緊,愣著幹嘛?能幫你的就這些了。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?


如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

8.數據可視化

老生常談的,數據可視化是數據科學家必備技能,感覺已經說了幾個世紀。現在連新聞工作者(小編很自豪的向你安利

《 》)都在熟練運用可視化技術向讀者解釋事情的真相,數據科學家落後,將是無比丟臉的事情。

此外,商業世界經常產生大量數據。這些數據需要翻譯成易於理解的表達。人們自然地以圖表和圖形的形式理解圖片而不是原始數據。所謂 “一張圖片勝過千言萬語”,人人都會被精美的圖片吸引,而不是一個打包數據文件。

作為數據科學家,必須能夠藉助數據可視化工具(如ggplot,d3.js和Matplottlib以及Tableau)可視化數據。這些工具將幫助將項目中的複雜結果轉換為易於理解的格式。問題是,很多人不瞭解序列相關性或p值,需要直觀地向他們展示這些術語在結果中代表的含義。

數據可視化可以快速掌握有助於抓住新商機並在競爭中保持領先地位的見解。越來越多的機構開始使用類似天貓雙十一可視化大屏的工具,對可視化技術投入的增加不言而喻。

9.非結構化數據

數據科學家能夠處理非結構化數據至關重要。非結構化數據是未定義的內容,不適合數據庫表。示例包括視頻、博客文章、客戶評論、社交媒體帖子、視頻、音頻等。

由於其複雜性,大多數人將非結構化數據稱為“暗箱分析”。使用非結構化數據可以揭示對決策有用的洞察力。作為數據科學家,必須能夠理解來自不同平臺的非結構化數據。

(三)剩下的能不能交給悟性與情商?

10.智力上的好奇心

艾爾伯特愛因斯坦曾說“我沒有特殊才能。我只是充滿好奇心。” 這句名人名言被引用的到處都是。同樣也被推薦給了數據科學從業者。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

的確,好奇心可以被定義為獲得更多知識的願望。作為數據科學家,需要能夠提出有關數據的問題,因為數據科學家花費大約80%的時間來發現和準備數據。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

而數據科學領域是一個發展非常快的領域,必須學習更多以跟上節奏。

需要通過在線閱讀內容和閱讀有關數據科學趨勢的相關書籍來定期更新知識這一條,簡直就是諸葛亮給劉備的《隆中對》。還要注意,不要被在互聯網上飛來飛去的大量數據所淹沒,你必須能夠知道如何理解這一切。好奇心是成為數據科學家所需要的技能之一。例如,最初,可能沒有太多瞭解收集的數據。在好奇心驅使下,篩選數據以查找答案和更多見解。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

11.商業頭腦

要成為一名數據科學家,要對正在從事的行業有充分的瞭解,並瞭解公司正在努力解決的業務問題和困難。除了確定業務應利用其數據的新方法之外,能夠識別哪些問題對於業務而言至關重要是至關重要的。

為了能夠做到這一點,必須瞭解解決的問題如何影響業務。這就是需要了解企業運營方式的原因,以便可以將工作或者團隊引導到正確的方向。

12.溝通技巧

尋找強大數據科學家的公司其實是在尋找能夠清晰地將技術發現,轉化為非技術團隊人員需要知道的知識與信息,例如距離市場最近的一線部門,要知道利潤是他們創造的——市場營銷部門或銷售部門。這也無異於一種翻譯工作。如果只有翻譯者自己可以理解,那麼翻譯的人需要好好的反省一下自己存在的必要。數據科學家必須使企業能夠通過量化的觀察來制定決策,此外還要了解非技術同事的真實需求,以便適當地糾正錯誤。

需要牢記,無法讓同事獲得信息和數據科學工作者無法分析出結論一樣可怕。

所以要向大家安利一個新的手藝。除了說出公司同事們能夠理解的,相同文化的語言外,還需要使用數據講故事。作為數據科學家,必須知道如何圍繞數據創建故事情節,以便任何人都能輕鬆理解。例如,呈現數據表不如以敘事格式從這些數據中分享見解那樣有效。講故事能夠講複雜的原委正確地傳達給重要人物,比如決定收入和薪水的人。

如果想成為數據科學人才,需要必備哪些技能?

如果想成為數據科學人才,需要必備哪些技能?

13.團隊合作

也不能簡單地說數據科學家無法單獨工作。但是會有大把機會與公司高管、團隊共同制定策略與方案,或者和工作產品經理以及設計師創造更好的產品,與商家合作,推出更好的提高轉化率活動,從客戶到開發者。與組織或者機構中的每個人(包括客戶)合作是實力的體現,這種協調能力讓我想到了古代的一種職業,宰相。所以我們常說宰相肚裡能撐船,描述的就是這種複雜和高壓的狀態下還要和各方面有商有量的優秀的合作的能力。

從本質上講,與團隊成員合作,以便了解解決問題所需的業務目標和數據。需要了解正確的方法來解決問題,以及解決問題所需的數據以及如何將結果轉換並呈現給所有相關者都能輕鬆理解的內容。

結論

好了,談了很多大家都知道的事情,這裡有一個毒雞湯的公式送給大家:

做不好+做不到=很糟糕(的數據科學家)。

我把對數據科學家的希望留在這裡——要吃就吃這一行最好的飯。

特別註明:本文數據來自《2018數據人才白皮書》,由中國最大的第三方數據人才平臺科(kesci.com)與國際頂級諮詢公司韋萊韜悅發佈。

親愛的數據

出品:譚婧

美編:陳泓宇

如果想成為數據科學人才,需要必備哪些技能?



分享到:


相關文章: