01.25 人工智能科普|初學者如何規劃機器學習的路徑?

書山有路勤為徑,在學習進修的道路上,正確的路徑比埋頭勤奮要重要的多。


最近兩年AI在線學習和教育呈噴湧式發展,機器學習的培訓課程也是層出不窮,專業的教育和課程固然重要,但在這個過程中最關鍵的是如何規劃出合理的入門路徑,保證自己學習的課程、實操的項目都是符合自身的。

今天晚上我們就來探討下初學者如何規劃出近乎完美的機器學習路徑。


人工智能科普|初學者如何規劃機器學習的路徑?


機器學習基本概念


要規劃出合理的學習路徑,必須先對機器學習有個基本的瞭解。

機器學習是一種計算機程序,可以從現有的經驗中學習如何完成·某項任務,並隨著經驗的增加,性能也會隨著提升。

這裡的經驗也就是所謂的數據,對於機器學習來說,數據庫的大小對結果起決定性作用。

根據訓練方法的不同,機器學習可分為:監督學習,無監督學習,半監督學習,強化學習。


人工智能科普|初學者如何規劃機器學習的路徑?


在這裡我們講2種機器學習的常用方法:監督學習,無監督學習。

監督學習是從標記的訓練數據來推斷一個功能的機器學習任務,可分為“迴歸”和“分類”問題。

定量輸出稱為迴歸,定性輸出稱為分類。比如根據房屋的地理位置、面積大小、以及房屋周邊的配套設施等因素,來預測給定房屋的價格,這就是典型的迴歸問題。

但是,如果我們預測一個給定面積的房屋的價格是否比一個特定的價格高或者低的時候,這就變成了一個分類問題, 因為此時的輸出是“高”或者“低”兩個離散的值。

人工智能科普|初學者如何規劃機器學習的路徑?


無監督學習也被稱為非監督學習,無監督學習和監督學習最大的不同在於,事先沒有任何訓練樣本,而需要直接對數據進行建模。

無監督學習只能默默地讀取數據,自己尋找數據的模型和規律,比如聚類(把相似數據歸為一組)和異常檢測(尋找出一組數據的不同一個),在無監督學習中給定的數據沒有任何標籤或者說只有同一種標籤。

比如小時候我們還不認識錢幣,看到一堆紙幣和硬幣,會很自然的把紙幣和硬幣分開,這就是最簡單的聚類原理。

人工智能科普|初學者如何規劃機器學習的路徑?

機器學習中的經典算法

機器學習中所涉及到的算法有很多,比較典型的算法有決策樹、迴歸、神經網絡等。

決策樹

決策樹是機器學習中很經典的一種算法。它既是分類算法,也是迴歸算法,還可以用在隨機森林中。

咱們學計算機的同學經常敲if 、else if、else其實就已經在用到決策樹的思想了。

決策樹是一種簡單常用的分類器,通過訓練好的決策樹可以實現對未知的數據進行高效分類。


人工智能科普|初學者如何規劃機器學習的路徑?

舉個例子,普通人去銀行貸款的時候,銀行會根據相應條件,來判斷貸款人是否具有還貸能力。

貸款用戶主要具備三個屬性:房產、婚姻、平均月收入。

擁有房產或結過婚或月收入大於4000的貸款用戶具備償還能力。

判斷償還能力過程如圖所示


人工智能科普|初學者如何規劃機器學習的路徑?


例如:用戶甲沒有房產,沒有結婚,月收入5K,通過上圖的判斷條件可以判斷出用戶甲具備償還貸款能力。

這整個判斷還貸能力的過程,就用到了決策樹的思想。

迴歸

在統計學中,線性迴歸通過過擬合因變量和自變量之間的最佳線性關係來預測目標變量。

最佳擬合通過儘量縮小預測的線性表達式和實際觀察結果間的距離總和來實現。沒有其他位置比該形狀生成的錯誤更少,從這個角度來看,該形狀的“擬合”是最佳。

線性迴歸2個主要類型是簡單線性迴歸和多元線性回顧

簡單線性迴歸使用一個自變量通過過擬合最佳線性關係來預測因變量的變化情況,多元線性迴歸就是使用多個自變量來預測因變量的變化情況。


人工智能科普|初學者如何規劃機器學習的路徑?


支持向量機

支持向量機是一種分類方法,力求在樣本中畫出一道線,讓線距離兩邊樣本的距離最大

它在文本分類、圖像分類有較多應用。如果桌上有紅豆和綠豆,我們可以把SVM想象成一個忍者,他畫了一條線,把紅豆和綠豆分開。

但有時候豆子摻和在一起,怎麼辦呢?我們可以針對紅豆和綠豆的不同特性,把這些豆子通過核函數進行計算,把他們映射到高維空間去,這樣豆子自然就分開了。


人工智能科普|初學者如何規劃機器學習的路徑?


神經網絡

神經網絡也是一種分類器,它是由很多個虛擬的神經元組成的一個網絡,我們可以把一個神經元看成一個分類器,那很多個神經元組成的網絡就能對樣本進行很多次分類。

樸素貝葉斯分類器

樸素貝葉斯分類器是一種統計學的分類方法,其基於樸素貝葉斯定理,給定一個樣本觀測點,預測其屬於某一類的概率。

比如說,我們要識別一封郵件是不是垃圾郵件。我們隨機挑選出100封垃圾郵件,分析它的特徵,我們發現“便宜”這個詞出現的頻率很高,100封郵件裡有40封出現了這個詞。

那我們就以結果為依據,得出結論:如果出現了“便宜”,那麼該郵件有40%的概率是垃圾郵件。

這就是基本的樸素貝葉斯分類器算法。

機器學習入門路徑規劃

學習python編程,瞭解算法與數據結構

Python已成為AI和大數據時代的第一開發語言,無論同學們現在處於哪個階段,Python編程是一定要學習的首要技能,Python能夠被很多第三方庫支持,而且Python本身語法很簡單,初學者也很容易上手。

掌握足夠多的數理知識

數學對機器學習的重要性不言而喻,尤其是微積分、概率統計、矩陣、凸優化等基礎數學知識,除了掌握好相應的數學知識之外,還需要了解數學在機器學習中的工業應用,理論知識和實踐缺一不可。

逐步學習並熟練應用機器學習算法

涉及到具體的機器學習算法,比如我們前文提到的決策樹、迴歸、樸素貝葉斯等,這類算法不僅僅需要掌握它們的理論知識,更需要在實際應用中瞭解它們的模型構建和模型優化。

機器學習實戰應用

一切的學習都是以實際應用為導向的。

大家經歷了前三個步驟的學習積累,基本上該掌握的理論和算法都已經掌握了,這一階段該做的就是去實際做一些項目,將之前所學的知識融會貫通。


分享到:


相關文章: