機器學習概述

本文主要對機器學習作了初步總結,從以下4個方面編寫:

  • 機器學習定義;
  • 機器學習應用範圍
  • 機器學習分類
  • 常見經典算法

1.機器學習定義

從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數據,訓練出模型,然後使用模型預測的一種方法。

  • “訓練”與“預測”是機器學習的兩個過程,“模型”則是過程的中間輸出結果,“訓練”產生“模型”,“模型”指導 “預測”。
  • 機器學習方法是計算機利用已有的數據(經驗),得出了某種模型或規律,並利用此模型預測未來的一種方法。
機器學習概述

機器學習VS人類學習

  1. 機器學習應用範圍

機器學習跟模式識別,統計學習,數據挖掘,計算機視覺,語音識別,自然語言處理等領域有著很深的聯繫。從範圍上來說,機器學習跟模式識別,統計學習,數據挖掘是類似的,同時,機器學習與其他領域的處理技術的結合,形成了計算機視覺、語音識別、自然語言處理等交叉學科。

因此,一般說數據挖掘時,可以等同於說機器學習。同時,我們平常所說的機器學習應用,應該是通用的,不僅僅侷限在結構化數據,還有圖像,音頻等應用。

機器學習概述

機器學習應用

模式識別 = 機器學習

數據挖掘=機器學習+數據庫

統計學習近似等於機器學習

計算機視覺=圖像處理+機器學習

語音識別=語音處理+機器學習

自然語言處理=文本處理+機器學習

3.機器學習分類


機器學習概述

機器學習劃分

人工智能是一個很大的定義,機器學習是人們在探索人工智能的過程中的一種思路(並不一定是一條通往終極人工智能的路,所以人工智能絕對不等於機器學習!),神經網絡是機器學習中的一種監督學習算法,而深度學習則是將神經網絡的層數增多,使用大量數據來建立的一種表示學習算法。

機器學習概述

機器學習分類

4.經典算法

機器學習模型框架解釋做什麼,怎麼做,怎麼用的問題。

機器學習概述

機器學習模型框架

4.1 K-means算法

K-means是一種非監督模型,它的基本思想很簡單,有一堆數據想要分堆,假設要分成3個堆,先隨機的設3個點,然後通過迭代來找到每個點到它的中心的距離平方和是最小的,相當於找到這3個最有代表性的中心點。它沒有對數據的分佈做任何的假設,沒有認為它是某種的分佈,或者說,不管是什麼樣的分佈,都去做這件事情。優化的目標就是要使得它的這3個點是最有代表性的,所以把這個問題最終變成了一個做優化求解。當有新的數據加進來的時候,也是可以帶入距離的公式,去找到哪個點是對於該點來說最有代表性的一箇中心點。

機器學習概述

K-means算法模型

4.2 線性迴歸(linear regression),它是監督學習,是有明確的目標的。 Y是X的一個函數,f(x)是線性加和的關係,這就是模型假設。對線性迴歸最常見的求解方式是把它的目標函數寫成誤差的平方和。這樣做的好處是可以得到一個閉式解,可以最終求出解。

機器學習概述

線性迴歸模型

4.3 邏輯迴歸

邏輯迴歸(logistic regression),是一個監督學習方法,該模型的假設是基於一個概率。所以它跟線性迴歸不一樣,輸出是一個概率值,我們在用它的時候也是得到的這個概率。有了這樣的模型函數後,接下來要解決該怎麼樣求解,因為存在待定係數:β。對於概率問題,最常用的方式是求log後likelihood,最終是把概率形式的模型轉化成優化損失函數(cost function)問題。

機器學習概述

邏輯迴歸模型

4.4 支持向量機

支持向量機(support Vector Machine),它是一個分類問題,它跟邏輯迴歸不一樣的是它沒有做任何概率上的假設,它本身就是一個優化問題:在這個平面上面找一條線,能夠把這兩個類別分開,使得它的邊緣(margin)最大,邊緣就是這個離的最近的這個點到這條線之間的距離。這個是一個完全可以分開成兩類的案例,實際中應用過程之中,它可能過擬合。它也是一個優化問題,優化的目標是最大化這個邊緣。

機器學習概述

支持向量機模型

4.5 神經網絡

神經網絡是一個監督學習,可以用來做迴歸或分類問題。它的思想就是輸入有很多,輸出只有一個。自變量X和因變量Y,中間有很多的隱藏層,這裡只有1層,它有很多層就是現在比較流行的深度學習(deep learning)架構。每一層其實都是下面一層的一個線性表達函數,這樣一層一層壘起來最終要去優化的是量Y和實際觀察到Y的誤差,最小化這個誤差,可以把它的損失函數求出來,轉化成優化問題。

機器學習概述

神經網絡模型

4.6 貝葉斯模型

貝葉斯模型,前面的基本上都是點估計。貝葉斯其開始有一個想法,比如想估計某一個係數,開始什麼都不知道,可能是等於0.1,可能等於0.9,且中間的概率都差不多。但當得到一些數據後,就會越來越集中在某一個值上。當一百萬個數據以後基本上就確定它是在這點上,但是它其實還是一個很窄的分佈。貝葉斯認為沒有什麼東西是確定的,所有能確定的就是它有一個概率,然後一個分佈,但當更多的數據以後,認識就會變得越來越清晰。

機器學習概述

貝葉斯模型

機器學習,深度學習等算法模型非常多,就不過多列舉了。


分享到:


相關文章: