順應數據時代潮流，利用雲資源進行自動機器學習技术頭條網

2018-05-23 09:44:29 AI中國

近年來數據科學出現了兩種趨勢：

1.利用雲資源進行數據分析和模型訓練

2.機器學習管道的算法開發和優化

本文將簡要介紹這些趨勢，並在Python中使用Google Colaboratory以及通過雲資源自動機器學習來展示具體步驟。

使用Google Colab進行雲計算

最初，所有計算都是在大型計算機上完成的。你需要通過終端登錄，和多用戶同時共享的一臺大型計算機。然而，伴隨著微處理器的發明和個人計算機革命運動的產生，每個人都擁有了屬於自己的計算機。雖然筆記本電腦和臺式機都能完成日常工作任務，但隨著最近數據集規模的擴大和運行機器學習模型所需的計算能力的增加，利用雲資源計算勢在必行。

一般而言，雲計算是指“通過互聯網提供計算服務”。這涵蓋了從數據庫到服務器到軟件的各種各樣的服務，但在本文中，我們將以Jupyter Notebook的形式在雲上運行一個簡單的數據科學工作負載。我們將使用相對較新的Google Colaboratory服務：在Google服務器上運行Python的在線Jupyter Notebook功能，你無論在何地都可以通過互聯網連接訪問，並且可以像Google Doc一樣進行共享。

Google Colab使得雲計算的使用變得輕而易舉。過去，需要花費數十個小時配置Amazon EC2，才能在雲上運行Jupyter Notebook，還必須按小時付費！然而從去年起，Google宣佈現在可以在其Colab服務器上運行Jupyter Notebook，每次免費試用長達12小時。而且你不必擔心安裝軟件可能會面臨的技術困難，現今的筆記本電腦已經預裝了大多數的數據科學軟件包。

首先在Colaboratory中打開筆記本

豐富的在線資源使得數據科學變得越來越容易獲取，Colab項目降低了雲計算的障礙。對於那些熟悉Jupyter Notebooks的人來說，這是一次完美的革新，而對於那些不是很熟悉它的人來說，這是開始學習使用這個數據科學工具的好機會！

使用TPOT進行自動化機器學習

自動機器學習旨在通過算法設計和優化機器學習管道來解決特定的問題。在此背景下，機器學習管道包括：

1.特徵預處理：填補、縮放和構建新特徵

2.特徵選擇：降維

3.模型選擇：評估多種機器學習模型

4.超參數調整：尋找最佳模型設置

這些步驟可以無限組合，最佳解決方案將針對問題而改變！設計機器學習管道或許是一個耗時且令人沮喪的過程，不到最後你永遠不會知道你開發的解決方案是否接近最優方案。自動機器學習可以通過評估數以千計的可能管道來幫助你尋找針對特定問題的最佳（或接近最佳）解決方案。

機器學習只是數據科學過程的一部分，自動化機器學習並不意味著取代數據科學家。相反，自動機器學習是為了解放數據科學家，以便他們可以在更有價值的方面工作，例如收集數據或解釋模型。

自動機器學習工具有許多：H20、auto-sklearn、Google Cloud AutoML。本文將專注於由Randy Olson開發的TPOT。TPOT使用基因編程來找到最佳的機器學習管道。

基因編程

基因編程的工作原理如下：

1.從隨機生成的機器學習管道的初始數量開始，比如說100個，每一個都由用於特徵預處理、模型選擇和超參數調整的函數組成。

2.訓練每個管道（稱為個人）並使用交叉驗證來評估性能指標。交叉驗證性能代表個體的“適應性”。每一個人口的訓練都被稱為一代人。

3.經過一輪訓練後，第一代通過繁殖、變異和交叉創造第二代100人。繁殖意味著在管道中保持相同的步驟，選擇的概率與健康評分成正比。變異指一代人內部隨機變化。交叉是隨機變化，從一代到下一代人。總而言之，這三種變化將產生100條新的管道，每條管道都略有不同，但是，根據適應度函數最好的步驟更容易被保留。

4.重複這個過程，通過繁殖、變異和交叉創造新的個體。

5.在優化結束時，選擇性能最好的單個管道。

基因編程在建立機器學習模型方面的主要優勢在於探索。即使是時間充裕的人，也會由於知識和想象力有限，而無法嘗試所有預處理、模型和超參數的組合。基因程序設計不會對任何特定的機器學習步驟順序產生初始偏差，並且每一代都會對新的管線進行評估。

在雲上自動進行機器學習

現在，我們可以在Google Colab筆記本中使用TPOT來自動設計機器學習管道。

我們的任務是：根據紐約市的能源數據，要預測建築物的能源之星得分。通過使用人工特徵工程、降維、模型選擇和超參數調整，我們設計了一個梯度提升迴歸模型，該模型在測試集上實現了9.06分的平均絕對誤差（範圍從1到100）。

該數據包含數十個連續的數字變量（如建築物的能源使用和麵積）以及兩個獨熱編碼的分類變量（自治市鎮和建築物類型），共計82個特徵。

順應數據時代潮流，利用雲資源進行自動機器學習

原始數據功能

將所有缺失的值編碼為np.nan，並不對數據進行特徵預處理。

首先，我們需要確保TPOT已安裝在Google Colab中。大多數數據科學軟件包已經安裝好了，但我們可以使用系統命令添加任何新的數據（在Jupyter中）：

順應數據時代潮流，利用雲資源進行自動機器學習

在讀入數據後，我們通常會填寫缺失值，並將這些規範化到一個範圍內。但是，除了特徵工程、模型選擇和超參數調整之外，TPOT還會自動計算缺失值並進行特徵縮放所以，我們的下一步是創建TPOT優化器：

順應數據時代潮流，利用雲資源進行自動機器學習

TPOT優化器的默認參數將評估100個管道，每個管道有100代，共10,000條管道。使用10倍交叉驗證，這代表有100,000個訓練在運行！為了避免在Colab服務器上耗盡時間，我們將設置最多8小時的時間進行評估。

在對優化器的調用中設置以下參數：

scoring = neg_mean_absolute error: 迴歸表現指標

max_time_minutes = 480：將評估限制為8小時

n_jobs = -1：使用機器上所有可用的內核

verbosity=2:在訓練時顯示有限的信息量

cv = 5：使用5倍交叉驗證（默認值為10）

TPOT優化器的語法設計與Scikit-Learn模型相同，因此我們可以使用.fit方法來訓練優化器。

順應數據時代潮流，利用雲資源進行自動機器學習

在訓練期間，會得到一些信息：

順應數據時代潮流，利用雲資源進行自動機器學習

由於時間限制，模型只能達到15代。這代表了1500個不同的獨立管道被評估，這比純手工的要多得多。

一旦模型已經過訓練，就可以使用tpot.fitted_pipeline_來查看最優管道。也可以將模型保存到Python腳本中：

順應數據時代潮流，利用雲資源進行自動機器學習

我們在Google Colab筆記本中為了將管道從服務器上傳到本地計算機上，我們必須使用Google Colab庫：

順應數據時代潮流，利用雲資源進行自動機器學習

然後打開文件並查看已完成的管道：

順應數據時代潮流，利用雲資源進行自動機器學習

我們可以看到優化器為我們提供了缺失的值，並構建了一個完整的模型管道。

要找到平均絕對誤差，可以使用.score方法：

順應數據時代潮流，利用雲資源進行自動機器學習

我們構建的一個梯度提升迴歸模型，其平均絕對誤差為9.06。自動化機器學習的性能有著顯著的提高，大幅縮短了開發時間。

我們可以使用優化的管道，並嘗試進一步完善解決方案。如果使用這個管道作為最終模型，可以試著解釋模型或者編寫一份記錄報告。

結論

在這篇文章中，簡要介紹了雲的功能和自動機器學習。只要有Google帳戶和互聯網，我們就可以使用Google Colab開發、運行和共享機器學習或數據科學工作負載。使用TPOT，我們可以自動開發具有功能預處理、模型選擇和超參數調整的優化機器學習管道。

分享到:

閱讀更多 AI中國 的文章

關鍵字: Google Python 編程語言

順應數據時代潮流，利用雲資源進行自動機器學習

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪