機器學習競賽實際上是一場數據競賽

機器學習競賽實際上是一場數據競賽

本文翻譯自: 《The Machine Learning Race Is Really a Data Race》(https://sloanreview.mit.edu/article/the-machine-learning-race-is-really-a-data-race/?utm_source=wanqu.co&utm_campaign=Wanqu+Daily&utm_medium=website), 如有侵權請聯繫刪除,僅限於學術交流,請勿商用。如有謬誤,請聯繫指出。

如果你願意這麼說的話,機器學習或人工智能已經成為一種商品。那些急於定義和實現機器學習的企業驚訝的發現,實現一種算法使機器智能的利用已有數據集處理問題的是比較容易的部分。從谷歌開源的機器學習框架TensorFlow到微軟的Azure和亞馬遜的SageMaker,有一大批強大的即插即用的解決方案,可以輕鬆地完成繁重的編程工作。

不過在此過程中,數據不但沒有被商品化,反而正在成為機器學習競賽中極為關鍵的差異化因素。這是因為好的數據並不常見。

機器學習競賽實際上是一場數據競賽

有用的數據:有價值並且罕見

數據正在成為一種差異化因素,因為許多公司並沒有他們需要的數據。儘管幾十年來,企業一直使用公認的會計準則通過系統的方式衡量自己,但這種衡量長期以來一直集中於實物和金融資產——即物品和貨幣。2013年,諾貝爾獎(Nobel Prize)甚至授予了資本資產定價領域的獎項,從而加強了這些公認的優先事項。

但今天最有價值的公司大多是在軟件和網絡上進行交易,而不僅僅是實物和資本資產。在過去40年中,資產重點已完全轉變,1975年有形資產佔市場的83%,但是到了2015年無形資產卻佔據了市場的84%。和過去不同的是,如今的企業巨頭不再製造咖啡壺、銷售洗衣機,而是提供app用以連接用戶。 這種轉變造成了在我們衡量的東西和真正驅動價值的東西之間嚴重的不匹配。

有用的數據十分罕見。市場和賬面價值之間的差距越來越大。由於這種差距,公司正在競相將機器學習應用於重要的業務決策,甚至取代他們的一些昂貴的顧問,只是意識到他們所需的數據甚至還不存在。從本質上說,人工智能這個新生的系統正在被要求應用到傳統的企業中。

就像人一樣,機器學習系統在沒有學習之前無論怎樣都不算聰明。為了變得智能,機器需要比人類更多的數據。不過他們也確實能夠更快地讀取數據。因此,儘管企業在引進機器學習人才和啟動人工智能計劃方面存在明顯的競爭,但對於新數據和不同數據,也存在一場幕後競爭。

例如,在金融領域,替代數據超出了傳統的證券交易委員會報告和影響投資決策的投資者報告。社交媒體情緒或專利授予數量等另類數據之所以重要,有兩個重要原因。首先,傳統數據側重於傳統資產,而在無形資產時代則不夠廣泛。其次,沒有必要花時間使用機器學習來研究市場上其他人正在分析的相同數據集。所有對此感興趣的人都已經嘗試將行業趨勢、利潤率、增長率、息稅前利潤、資產週轉率和資產回報率,以及1000多個其他常見變量與股東回報聯繫起來。

在所有人都擁有的相同資料之間尋找聯繫,無助於企業在競爭中取勝。相反,那些希望將人工智能作為差異化因素的企業,將不得不在新數據集之間尋找關聯——它們可能不得不創建自己的數據集,以衡量無形資產。

仔細考慮:你想知道什麼?

數據創建比簡單地聚合銷售點或客戶信息並將其轉儲到數據庫要複雜得多:大多數組織錯誤地認為,權宜之計包括收集所有可能的數據碎片,並煞費苦心地梳理所有數據,以期找到一絲見解——難以捉摸的功能,可以預測或分類他們關心的事物。

雖然機器學習偶爾會以一種罕見的、尚未有人發現的閃光點給我們帶來驚喜,但該技術無法提出一致性的見解。這並不意味著這個工具沒用。而是意味著我們必須正確的使用它。在我們對替代數據市場的研究中,我們發現超過一半的新數據提供商仍然專注于衡量實物和金融資產。

許多組織省略的步驟是創建一個關於重要事項的假設。機器學習真正擅長的地方在於,它具有人類所擁有的洞察力——一種基於經驗法則、廣泛的感知或不太理解的關係——並開發一種更快速、更易於理解、更易拓展(不容易出錯)的方法來應用那些insight。

為了以這種方式使用機器學習,你不需要向系統提供任何相關領域的所有已知數據點。你給它提供了一套精心準備的知識,希望它能夠學習,或許就能擴展人們已經擁有的知識。

深刻的機器學習來自不同的數據

所有的這些對於那些希望創建有影響力和有價值的機器學習應用程序的公司都有以下三個具體的含義:

  • 差異化數據是這場AI遊戲成功的關鍵。 使用競爭對手擁有的數據,你不會發現任何新東西。深入瞭解並確定你的組織所知道的獨一無二的內容和觀點,並綜合這些創建一個獨特的數據集。機器學習的程序確實需要大量的數據點,但這並不意味著模型必須考慮數據的廣泛性。你需要將數據工作集中在組織已經差異化的地方。
  • 有意義的數據比全面的數據好。 你可能擁有關於某個主題非常詳細的數據,但這些數據可能並沒有什麼用。如果你的公司並沒有把這些信息作為基礎用來幫助決策,那麼從機器學習的角度來看,這些數據可能就沒有價值。一個專業的機器學習架構師會問你一些棘手的問題,比如哪些領域是真正重要的,以及這些領域對你獲得的見解的應用可能有什麼影響。如果這些問題很難回答,那就說明你還沒有深入的去思考如何產生實用價值。
  • 起點應該是你所知道的那些東西。 那些機器學習用的比較好的公司往往都是從一個獨到的見解開始的。對他們來說,做重要決定最重要的是什麼?這為他們瞭解要收集哪些數據,以及使用哪些技術提供了方向。一個簡單的開始是擴展和增長你的團隊已經擁有的知識,這可以為組織創造更多的價值。

很明顯,軟件已經吞噬了世界(這是軟件企業家Marc Andreessen所說的一句話)。但這仍然不夠,軟件需要新數據與新技術相結合,這樣才可以繼續增加價值。

如果你不想被這種見解、機器和替代數據的轉變所拋棄。那就從內部開始尋找,確定你獨特的視角,以及你能夠並且應該生成的有價值的、可選的數據。遵循這些步驟,你將會發現他們之間的關聯,並以此保持組織的競爭力。

最後

如果你有什麼疑問,歡迎在評論區留言。同時如果你覺得本文對你有幫助,希望可以關注並轉發,你的支持是我更新的最大動力!


分享到:


相關文章: