機器學習入門:監督、非監督、強化學習分別是什麼

有些朋友對於機器學習可能還不是特別瞭解,所以我在這裡專門用一篇文章來為大家普及一下機器學習的方法和目的。今天我們主要介紹監督學習、無監督學習和強化學習三種方法。

一、監督學習(supervised learning)

監督學習的目的是使用帶有標記(分類或目標值)的訓練數據集來構建模型,然後我們就可以用我們的模型對新的數據進行預測。這裡監督的含義就是訓練集中每個樣本均有一個已知的輸出項(即前邊提到的標記),整個模型的訓練過程,是在輸出項以及反饋函數(或者叫損失函數)的約束情況下完成的。

監督學習主要分為兩種:分類和迴歸。

1.分類

分類模型的目標是預測樣本所屬的分類,即其輸出值為分類標籤(class label)。比如對於一個過濾垃圾郵件的模型來說,它的作用就是根據每封郵件的信息判斷其是一封正常郵件還是垃圾郵件,而“正常郵件”和“垃圾郵件”就是分類模型所輸出的分類標籤。

垃圾郵件過濾模型屬於二分類,不過有很多種情況下,我們需要解決多類別分類問題,比如數字識別,從0到9,這就是十種分類。多分類問題同樣屬於機器學習中分類模型的研究範圍。

下邊這張圖是一個KNN分類器的輸出結果,它將三種不同品種的鳶尾花給區分了出來,儘管有一些樣本分類錯誤,不過整體效果還是很不錯的,畢竟這裡僅用了兩個特徵。這是一個三分類模型的例子,在這裡我們通過計算找到距離某個樣本最近的“鄰居”們,然後找到鄰居們所屬最多的分類,然後將這個分類預測給這個樣本。這就是K最近鄰分類模型的原理。更多的分類模型知識可以關注我的其他文章。

機器學習入門:監督、非監督、強化學習分別是什麼

2.迴歸

我們已經知道,分類模型的目的是預測分類標籤,這是一種離散值,那麼有什麼方法可以預測連續值嗎?有,這種方法就是我們所說的迴歸模型。

比如我們想根據學生學習的時間來預測其期末成績,或者我們想要根據市場因素預測今年的營業額,這些都可以用迴歸模型來解決。我們常見的有線性迴歸模型,它是很多模型的基礎,也存在許多變種,我們必須要掌握它的原理。但是也存在很多模型可以擬合非線性數據,比如多項式迴歸等。

比如下圖,我們同時用線性迴歸模型和多項式迴歸模型(這裡是二項式)來擬合數據。一般來說,我們找到的這條迴歸線,會使得每個樣本與它之間的距離的平方和最小,這種方法我們稱之為最小二乘法。

機器學習入門:監督、非監督、強化學習分別是什麼

不過注意哦,邏輯迴歸中雖然有迴歸二字,但實際上是一個分類模型。

二、無監督學習(unsupervised learning)

與監督學習相對應,無監督學習適用於那些沒有標記(分類標籤或連續值)或者總體分佈趨勢不明朗的數據集。在無監督學習中,我們不會用(或者根本沒有)標記來約束模型的訓練。通過無監督學習,我們可以在沒有輸出變量以及反饋函數指導的情況下獲得關於數據集的知識。

無監督學習主要有聚類和降維兩類。

聚類

聚類是一種探索性的數據分析技術,它根據數據集本身的特徵將數據集劃分為多個小組(即簇,cluster),在不同的小組間,數據的差異較大,而在同一個小組內部,數據又比較相似。

比如說,有很多客戶,我們想提供更有針對性的服務,但是我們不知道如何去對客戶群分類。這時我們就可以採用聚類方法,劃分出不同的分組,然後探索每個分組內用戶的特點,並做出針對性的嘗試。

下邊這張圖,就是幾種不同的聚類方法實現的效果,它們將不同的樣本按照某種規律劃分到我們指定的組數中去。

機器學習入門:監督、非監督、強化學習分別是什麼

降維

數據降維是一種有效的數據預處理手段,我們常用他來處理高維數據或者稀疏數據,這樣能幫助我們節約大量的計算資源,提升計算速度,同時避免過擬合等問題。

同時,降維對於高維數據的可視化也很有幫助。一維、二維、三維的數據,我們都很容易理解,但是在可視化四維、五維甚至更高維度的數據時,我們就會面臨比較大的困難。

這時我們可以使用降維手段僅保留有限的少數特徵,同時這幾個特徵蘊含了整個數據集中絕大多數的信息,這就是降維的一大優點。

比如下邊兩張圖,就是把三維數據降至二維,同時保留了絕大多數的信息,不同分類間的界限依然很清晰。

機器學習入門:監督、非監督、強化學習分別是什麼

機器學習入門:監督、非監督、強化學習分別是什麼

三、強化學習(reinforcement learning)

強化學習的目標則是構建一個系統(Agent),在與環境交互的過程中提高系統的性能(預測能力)。環境的當前狀態信息中通常包含一個反饋(reward)信號,因此我們可以將強化學習視為與監督學習相關的一個領域。不過一般來說,這個反饋值並不一定是一個確定的分類標籤或者預測值,也有可能是一個對於系統當前表現的評價(通常由我們的反饋函數決定)。通過與環境的交互,系統可以通過探索性的試錯或者藉助精巧的激勵系統使得正向反饋最大化。

比如說象棋對弈的遊戲,系統根據棋盤上當前的局勢決定落子位置,遊戲勝負時的判定則是激勵信號。

下邊這種圖就是強化學習過程的圖示,系統在於環境的不斷交互中,根據反饋的信號(激勵)不斷進步。

機器學習入門:監督、非監督、強化學習分別是什麼

以上就是常見的三類機器學習方法,當然,還有一些基於它們的方法比如集成方法,在此就不多說了。

希望大家能理清這些概念,這對於我們靈活運用機器學習方法非常重要。


分享到:


相關文章: