乾貨|深度講解什麼是監督學習、無監督學習、強化學習

本文長度946字,文末有乾貨

預計閱讀時間3分鐘

乾貨|深度講解什麼是監督學習、無監督學習、強化學習

如果你是機器學習的初學者,那你肯定時常為機器學習領域的各種名詞而頭大。但是請別擔心,今天筆者就將以一種簡單明瞭的方式為大家分析講解監督學習、無監督學習強化學習三個概念:

首先我們先要明確機器學習的概念:簡單來說,機器學習是計算機運行一種特定算法的方式。它無需人工直接監督,直接從數據中學習。而機器學習,大體上可以分為監督學習、無監督學習強化學習三個類型:

監督學習

監督學習依賴於有標記的訓練數據集。舉例來講:對於一個病人信息的數據集而言,這位病人的性別年齡病史等就是

數據,而這位病人得病與否便是標記。監督學習的算法通過學習數據與標記的關聯來找出輸入變量(X)和輸出變量(Y)之間的函數(Y=f(X))。常見的監督學習方法包括:

  • 迴歸方法:預測作為實際值的輸出變量,例如人的年齡或降雪量
  • 分類方法:當輸出變量(Y)是分類時(例如死亡或存活、生病或健康),預測給定數據樣本的輸出
乾貨|深度講解什麼是監督學習、無監督學習、強化學習

支持向量機(SVM)實現監督學習(分類)

事實上,神經網絡算法就是以實現監督學習為主的(但這並不代表神經網絡算法不涉及無監督學習領域)。

乾貨|深度講解什麼是監督學習、無監督學習、強化學習

強大的神經網絡

無監督學習

無監督學習僅使用輸入變量(Y),而不使用輸出變量

(Y),並且依賴沒有標記的數據集來映射數據的基礎結構,比如沒有確診的病人數據便是一個沒有標記的數據集。常見的無監督學習方法包括:

  • 關聯方法:用於揭示一系列項目中某一項的概率(比如著名的“市場籃子分析問題”)
  • 聚類方法:根據相似性對對象樣本進行分組(比如確認哪些未確診的病人屬於一類)
乾貨|深度講解什麼是監督學習、無監督學習、強化學習

聚類方法演示

值得一提的是,神經網絡實現的自編碼器便是通過將輸入變量同時作為輸出變量來學習自我復現。這一無監督學習方法可以有效提高神經網絡特徵提取的能力。(對神經網絡感興趣的讀者可以參考文末的乾貨!)

乾貨|深度講解什麼是監督學習、無監督學習、強化學習

神經網絡自編碼器

強化學習

強化學習允許機器根據當前利益最大化的策略決定最佳的下一動作(貪心策略)。例如2017年因為戰勝柯潔而揚名全球的AlphaGo便是使用強化學習方法訓練的。強化學習在訓練機器挑戰電腦遊戲方面有巨大的優勢(比如賽車遊戲)。

乾貨|深度講解什麼是監督學習、無監督學習、強化學習

強化學習流程

常見的強化學習方法是在機器正確完成一個操作後給予一定獎勵,計算機會在不斷的試探中學習到正確的執行路徑。通常,在機器人控制方面我們使用的都是強化學習方法。

乾貨|深度講解什麼是監督學習、無監督學習、強化學習

用強化學習訓練神經網絡挑戰馬里奧遊戲


機器學習乾貨君致力於原創易於理解的技術原理與細節文章

I Studied Hard,

So YOU Don't Have To !

歡迎大家關注: )


相關乾貨:

  • 想在自己的電腦上輕鬆配置機器學習開發環境?詳見

  • 想要完全理解人工神經網絡的本質嗎?詳見


分享到:


相關文章: