機器學習=數據科學?N大區別要搞清


機器學習=數據科學?N大區別要搞清


(圖片來自Intersection Consulting公司)


當提到“數據科學”與“機器學習”的時候,有沒有覺得兩者有著諸多交叉而難以區分?如果是,那你必須讀一讀這篇文章。

本文闡釋了“數據科學”與“機器學習”之間幾個重要且易被忽視的區別,以幫助你更好地理解和學習,供你在學習生涯、職業道路選擇方面參考。

機器學習=數據科學?N大區別要搞清


機器學習與數據科學


如今媒體在大肆炒作“機器學習”的概念,但是他們卻常常不注意自己的用詞。在大眾認知裡,機器學習具有廣泛意義的內涵,遠遠超過從業者所接觸到的範圍。

機器學習是數學優化的一種特定形式:通過訓練數據或經驗,無需顯示編程,而使計算機更好地完成某項任務。

具體過程如下:根據過去結果已知的案例建立模型,然後運用此模型對未來情況做出預測,想辦法使數值“誤差”或“成本”函數最小化(指預測結果與實際結果之間的誤差)。

請注意,一些重要的商業活動不在此定義的範圍之內:

1. 檢測數據是否匹配某個目標

2. 制定合適的目標

3. 執行系統與流程

4. 與不同利益相關者交流

人們對以上功能的需求使得數據科學成為一個獨立領域。《哈佛商業評論》告訴我們:數據科學家的關鍵技能不是建立使用深度學習基礎架構的能力,而是快速的學習能力與良好的溝通能力,以回答商業問題,向外行的利益相關者解釋複雜的結果。

其他作者也表示贊同:“我們認為,數據科學家最重要的特質是擁有多項技能——至少能夠單獨完成原型級版本的所有步驟,以獲得新的見解,或是打造數據產品。”

《哈佛商業評論》的其他文章也證實說:“機器學習的價值不在於更高級的算法,而在於讓它使用起來更加容易……對大多數公司來說,差距不在於機器學習不起作用,而是它實際操作起來十分困難。”

機器學習只是數據科學家掌握的諸多技能中的一項,而非全部。將機器學習等同於數據科學,就像是將會計等同於運營一家盈利的公司一樣。另外,數據科學的技能差距很大程度上體現在機器學習的互補領域——商業敏感、統計、問題框架與溝通交流。

機器學習=數據科學?N大區別要搞清


想成為數據科學家,尋求跨學科教育吧


毫無疑問,整個社會對數據科學家的需求越來越大。儘管如此,大多數廣受吹捧的數據科學教育計劃卻往往集中在機器學習的課堂中。

這是個很嚴重的問題。許多學生過分關注機器學習課程,不注重課程的平衡,由此產生了一大批想做數據科學卻又準備不充分的職場新手。

很多數據科學招聘經理都在面試時遇到過這樣的候選人:他們竭力誇大自己對機器學習的瞭解,卻幾乎不清楚基礎統計、偏差與方差,或是數據質量,更別說提出一個連貫的項目提案來完成商業目標了。

根據諸多內行人的經驗,軟件工程師似乎特別容易受到機器學習教育背景的影響。可以推測,這是因為機器學習所運用的思維方式與軟件工程師早已習慣的模式一樣:算法式的、目標明確的聚合性思維。

機器學習的高度專業化教育看起來能夠保證學生找到更有趣的工作,還不要求任何基本認知的轉變。但遺憾的是,就業市場很少兌現這一承諾,許多踏上這條道路的人發現自己根本無法從工程師轉變為一名科學家。

數據科學需要掌握一種不同的思維模式:常常是發散的,定義不明的,且需要在技術領域不斷來回轉換。數據科學家基本上是通才,受益於廣泛而非深入的教育。更擅長於進行跨學科研究,而不是單一領域研究。

機器學習=數據科學?N大區別要搞清


可擴展性與非可擴展性工作

在招募研究機器學習的專才之前,先招募通才型的數據科學家,會使大多數企業創造出更大的價值。要想明白其中的原因,就需要先了解可擴展與非可擴展性工作的差別。

建立通用的機器學習算法屬於可擴展性工作——一旦有人設計並運行了某個算法,其他所有人都可以使用這個算法並且幾乎沒有複製成本。當然,每個人都想使用由最好的研究人員研發的最強的算法,但是大多數公司都僱不起頂級算法設計師。萬幸的是,公眾可以通過研究論文、開源庫與雲API瞭解頂級大牛們的大部分成果。因此,世界上最厲害的機器學習算法設計師具有巨大的影響力,通才型的數據科學家得益於他們的成果,也能創造出巨大的影響。

相反,數據科學屬於不可擴展性工作。它需要了解某個特定公司的業務、需求和資產的具體情況。大多數具有一定規模的企業都需要自己的數據科學家。即使其他公司的數據科學家公佈了具體方法,但幾乎可以肯定的是,公司之間的某些問題和情況存在差別,別人的方法是不能完全照搬的。

當然,除了數據科學之外,還有許多有價值又有趣的職業。如果你正在考慮機器學習方面的職業,你得知道一個行業秘密:大公司裡的機器學習工程師實際上很少做與機器學習相關的事情。相反,他們將大部分時間用於構建數據處理流水線與模型部署基礎架構。如果你確實想做這些工作的話(往往也是很厲害的工作),我們仍然建議你別將學習重點僅放在機器學習算法上,要多學習通用工程,DevOps操作和數據流水線基礎架構的知識。

雖然比起世界上最好的數據科學家,最好的機器學習專家可能能在人類知識方面做出更大的貢獻,但是老練的數據科學家能在更為廣泛的領域上發揮巨大的影響力。就業市場的實際情況就反映了這一點。如果你正在找工作,將機器學習教育僅當作“均衡膳食”的一部分,可能會讓你找到最好的工作;如果你希望提高公司的數據化水平,那你可能需要招募一位數據科學通才。

要警惕當下媒體的過度炒作,如果過度專注於機器學習,不學習基礎知識,也不精通機器學習的互補領域,那麼你在就業市場中並不會想預想的那樣受歡迎。

機器學習=數據科學?N大區別要搞清



編譯組:吳夢涵、趙璇

相關鏈接:

https://www.kdnuggets.com/2018/12/learning-machine-learning-data-science.html


分享到:


相關文章: