數據科學最終遷移到雲端的5個原因

在充斥著數據的世界中,數據科學家為企業產生洞察力提供幫助,並進行預測,以實現更明智的業務決策。通常,這些數據科學家是統計分析和數學建模方面的專家,並且精通編程語言,例如R或Python。


數據科學最終遷移到雲端的5個原因


但是,除少數大型企業外,大多數數據科學工作仍然在筆記本電腦或本地服務器上完成,導致流程低效,容易出錯和延遲。在對於一些行業領先廠商如何將數據用於工作進行調查分析之後表明,“筆記本電腦的數據科學”將很快走上恐龍一樣的消亡之路。這是由於其效率低下,不能很好地進行協作,也無法產生最佳效果。

以下是數據科學家應該放棄筆記本電腦或本地服務器,並將其業務遷移到雲端的五個充分的理由。

1.數據科學是一項團隊運動

算法和機器學習模型構成了企業高級分析和機器學習難題的一部分。數據科學家、數據工程師、機器學習工程師、數據分析師和公民數據科學家都需要在這些元素上進行協作,以便為業務決策提供數據驅動的見解。

當數據科學家在他們的筆記本電腦上構建模型時,他們會將數據工程師創建的數據集下載到他們的機器上,以構建和訓練機器學習模型。有時他們會使用本地服務器進行構建和培訓,但通常採用的是筆記本電腦。由於筆記本電腦和本地服務器的處理計算能力和內存有限,數據科學家必須對數據集進行採樣,以創建更小、更易於管理的數據集。雖然這些樣本集可以幫助實現項目,但它們在數據科學生命週期的後期階段會產生許多問題。

數據過時也成為一個問題。有了這些數據的本地副本,數據科學家們可能會根據不準確的全局快照來構建預測。而在核心的雲計算使用更大、更具代表性的樣本可以緩解這種擔憂。

2.大數據勝過智能算法

最近,人們對人工智能和機器學習的興趣激增,這是由於能夠在大量結構化、非結構化和半結構化數據上快速處理和迭代(訓練和調整機器學習模型)。幾乎在所有情況下,機器學習都得益於在更大、更具代表性的樣本集上進行訓練。

企業可以通過將半結構化交互數據(網站交互日誌、事件數據)和非結構化數據(電子郵件文本、在線評論文本)與結構化交易數據(ERP、CRM、訂單管理系統)相結合來解鎖強大的用例。從機器學習中釋放業務價值的關鍵是擁有結合事務和交互數據的大型數據集。隨著規模的擴大,數據通常需要在雲端或大型內部部署集群中進行處理。將筆記本電腦添加到混合部署中會在整個流程中造成瓶頸,並導致延遲。

3.數據科學需要靈活的基礎設施

如今,數據科學家可以利用許多開源機器學習框架,如R、SciKit Learn、Spark MLlib、TensorFlow、MXnet和CNTK。但是,在筆記本電腦或本地服務器上管理這些框架的基礎設施、配置和環境非常麻煩。管理基礎設施的額外開銷會佔用核心處理數據科學活動的時間。

在軟件即服務模式中,大部分開銷都會消失。雲計算的基於使用情況的定價模型對於機器學習工作負載很有效,而機器學習工作負載在本質上是突發的。雲計算還使探索不同的機器學習框架變得更容易,雲計算供應商提供模型託管和部署選項。此外,包括Amazon Web Services、Microsoft Azure和Google Cloud在內的雲計算服務提供商提供智能功能作為服務。這就減少了將這些功能集成到新產品或應用程序中的障礙。

4.中央存儲庫可提高數據準確性和模型可審計性

機器學習模型的預測僅與用於訓練它們的數據一樣準確和具有代表性。人工智能和機器學習的每一種表現都可以通過提供高質量的數據來實現。例如,提供轉向指示的應用程序已存在數十年,但由於數據量較大,如今更加準確。

因此,毫不奇怪,人工智能機器學習操作的重要部分圍繞數據物流展開,即數據集的收集、標記、分類和管理,反映了人們試圖通過機器學習建模的現實世界。對於擁有大量數據用戶的企業而言,數據物流已經很複雜。當數據集的多個本地副本分散在這些用戶中時,問題才會變得更加嚴重。

此外,對安全和隱私的擔憂日益成為關注的焦點。企業數據流程需要符合數據隱私和安全法規。所有數據集的集中存儲庫不僅簡化了數據的管理和治理,還確保了數據一致性和模型可審計性。

5.更快的數據科學更有利於業務

所有上述原因都會導致基於筆記本電腦的數據科學延遲實現價值。在筆記本電腦或本地服務器上工作的數據科學家的典型工作流程中,第一步是對數據進行採樣,並手動將數據集下載到本地系統,或通過ODBC驅動程序連接到數據庫。第二步是安裝所有必需的軟件工具和軟件包,如RStudio、Jupyter Notebook、Anaconda發行版,機器學習庫和語言版本,如R、Python和Java。

當模型準備好部署到生產中時,數據科學家將其交給機器學習工程師。然後,機器學習工程師必須將代碼轉換為生產語言(如Java、Scala或C ++),或者至少優化代碼並與應用程序的其餘部分集成。代碼優化包括將任何數據查詢重寫為ETL作業,分析代碼以查找任何瓶頸,以及添加日誌記錄,、容錯和其他生產級功能。

這些步驟中的每一步都存在可能導致延遲的瓶頸。例如,開發和生產環境之間的軟件或軟件包版本的不一致可能導致部署問題。在Windows或Mac環境中構建的代碼在部署到Linux時肯定會中斷。

在筆記本電腦上運行數據科學的所有上述問題都會導致業務價值的損失。數據科學涉及數據準備、模型構建和模型驗證中的資源密集型任務。數據科學家通常會重複數百次嘗試不同的特性、算法和模型規範,然後才能找到他們要解決的業務問題的正確模型。這些迭代可能需要大量的時間。圍繞基礎設施和環境管理、部署和協作施加瓶頸可能進一步延遲企業實現價值的時間。

依靠筆記本電腦或本地服務器的數據科學家們在容易入門和易於擴展和生產電離機器學習模型之間做出了一個不明智的權衡和選擇。雖然在使用筆記本電腦或本地服務器時,數據科學團隊的運行速度更快,但云計算平臺提供了更大的長期優勢,其中包括無限制的計算能力和存儲、更容易的協作、更簡單的基礎設施管理和數據治理,最重要的是,生產時間更快。

在雲端開始使用數據科學和機器學習的最快和最具成本效益的方法是使用基於雲計算的數據科學和機器學習平臺。至少在這個用例中,筆記本電腦的未來發展是有限的。


分享到:


相關文章: