小白也看得懂的機器學習模型工作原理

全文共2723字,預計學習時長9分鐘


小白也看得懂的機器學習模型工作原理

圖源:unsplash


很多面試官都喜歡問這個問題:“假設我是個5歲的小孩兒,請向我解釋[某項技術]。”給幼兒園的小朋友講清楚機器學習可能有點誇張,實際上這一問題的要求就是,儘可能簡單地解釋某一技術。


這就是筆者在本文中嘗試做到的事。筆者將解釋什麼是機器學習以及不同類型的機器學習,再介紹常見的模型。本文裡,筆者不會介紹任何數學運算,小白請放心食用。


對於沒有或幾乎沒有數據科學背景的成年人來說,它應該是容易弄懂的(如果不能,請在評論區告訴我)。


小白也看得懂的機器學習模型工作原理

機器學習的定義


小白也看得懂的機器學習模型工作原理

機器學習圖


機器學習是指將大量數據加載到計算機程序中並選擇一種模型“擬合”數據,使得計算機(在無需你幫助的情況下)得出預測。計算機創建模型的方式是通過算法進行的,算法既包括簡單的方程式(如直線方程式),又包括非常複雜的邏輯/數學系統,使計算機得出最佳預測。


機器學習恰如其名,一旦選擇要使用的模型並對其進行調整(也就是通過調整來改進模型),機器就會使用該模型來學習數據中的模式。然後,輸入新的條件(觀測值),它就能預測結果!


小白也看得懂的機器學習模型工作原理

圖源:unsplash


小白也看得懂的機器學習模型工作原理

有監督機器學習的定義


監督學習是一種機器學習,其中放入模型中的數據被“標記”。簡單來說,標記也就意味著觀察結果(也就是數據行)是已知的。


例如,如果你的模型正嘗試預測你的朋友是否會去打高爾夫球,那麼可能會有溫度、星期幾等變量。如果你的數據被標記,那麼當你的朋友真的去打高爾夫了,你也會有一個值為1的變量,當他們沒有去打高爾夫,變量的值則為0。


小白也看得懂的機器學習模型工作原理

無監督機器學習的定義


在標記數據時,無監督學習與有監督學習恰好相反。在無監督學習的情況下,你不知道朋友是否會去打高爾夫球——這都由計算機通過模型找到模式來猜測已經發生了什麼或預測將會發生什麼。


小白也看得懂的機器學習模型工作原理

有監督機器學習模型


邏輯迴歸


在遇到分類問題時,可使用邏輯迴歸。這意味著目標變量(也就是需要預測的變量)由不同類別組成。這些類別可以是“是/否”,也可以是代表客戶滿意度的1到10之間的數字。


邏輯迴歸模型用方程式創建包含數據的曲線,然後用該曲線預測新觀測的結果。


小白也看得懂的機器學習模型工作原理

邏輯迴歸圖


上圖中,新觀測值的預測值為0,因為它位於曲線的左側。如果查看此曲線上的數據,就能解釋清楚了,因為圖中“預測值為0”的區域裡,大多數數據點的y值都為0。


線性迴歸


線性迴歸是人們通常知道的最早的機器學習模型之一。這是因為僅使用一個x變量時,它的算法(即幕後方程式)相對容易理解——畫出一條最適合的直線,這是小學階段教授的內容。然後,這條最佳擬合線可以預測出新的數據點(參見下圖)。


小白也看得懂的機器學習模型工作原理

線性迴歸圖


線性迴歸與邏輯迴歸類似,但是當目標變量連續時,才能使用線性迴歸,這意味著線性迴歸可以用任何數值。實際上,任何具有連續目標變量的模型都可以歸類為“迴歸”。連續變量的一個例子是房屋的售價。


線性迴歸也很容易解釋。模型方程式包含每個變量的係數,並且這些係數指示目標變量隨著自變量(x變量)中的每個變化而變化的量。


以房價為例,這意味著你可以查看回歸方程式,並可能這樣說道:“哦,這告訴我,房屋面積(x變量)每增加1平方英尺,售價(目標變量)就增加25美元。”


小白也看得懂的機器學習模型工作原理

圖源:unsplash


K近鄰算法(KNN)


該模型可用於分類或迴歸!“K近鄰算法”這個名字並不會造成混淆。該模型首先要繪製出所有數據。其中,“ K”部分是指模型為了確定預測值應使用的最鄰近數據點的數量(如下圖)。你可以選擇K,然後可以使用這些值來查看哪個值提供最佳預測。


小白也看得懂的機器學習模型工作原理

K近鄰算法圖


K = __圈中的所有數據點都可以對這個新數據點的目標變量值進行“投票”。得票最多的那個值是KNN為新數據點預測的值。


上圖中,最近的點中有2個是1類,而1個是2類。因此,模型將為此數據點預測為1類。如果模型試圖預測數值而非類別,則所有“投票”都是取平均值的數值,從而獲得預測值。


支持向量機


支持向量機在數據點之間建立邊界來運行,其中一類中的大多數落在邊界的一側(在2D情況下又稱為線),而另一類中的大多數落在另一側。


小白也看得懂的機器學習模型工作原理

支持向量機圖


其工作方式是機器力求找出具有最大邊距的邊界。邊距是指每個類的最近點與邊界之間的距離。然後繪製新的數據點,並根據它們落在邊界的哪一側將其分類。


筆者對此模型的解釋是根據分類情況來的,不過你也可以用SVM進行迴歸。


決策樹和隨機森林


小白也看得懂的機器學習模型工作原理

圖源:unsplash


這點筆者已經在上一篇文章中解釋過了——《向五歲小孩兒解釋數據科學概念:在面試中描述技術概念》(決策樹和隨機森林在鄰近結尾部分)。


鏈接:https://towardsdatascience.com/data-science-concepts-explained-to-a-five-year-old-ad440c7b3cbd


小白也看得懂的機器學習模型工作原理

無監督機器學習模型


接著到了“深水區”,我們來看看無監督學習。提醒一下,這意味著數據集未標記,因此不知道觀察結果。


k均值聚類


在用K表示聚類時,必須首先假設數據集中有K個聚類。由於不知道數據中實際上有多少個組,因此必須嘗試不同的K值,並使用可視化和度量標準來查看哪個K值行得通。K表示最適合圓形和相似大小的聚類。


k均值聚類算法首先選擇最佳的K個數據點,以形成K個聚類中每個聚類的中心。然後,它對每個點重複以下兩個步驟:


1.將數據點分配到最近的聚類中心

2.通過獲取此聚類中所有數據點的平均值來創建一個新中心


小白也看得懂的機器學習模型工作原理

K均值聚類圖


DBSCAN聚類


DBSCAN聚類模型與K均值聚類的不同之處在於,它不需要輸入K的值,並且它還可以找到任何形狀的聚類。你無需指定聚類數,而是輸入聚類中所需的最小數據點數,並在數據點周圍半徑之內搜索聚類。


DBSCAN將為您找到聚類,然後,你可以更改用於創建模型的值,直到獲得對數據集有意義的聚類為止。


小白也看得懂的機器學習模型工作原理

此外,DBSCAN模型會分類“噪聲”點(即,遠離所有其他觀測值的點)。數據點非常靠近時,此模型比K均值的效果更好。


神經網絡


小白也看得懂的機器學習模型工作原理

圖源:unsplash


在筆者看來,神經網絡是最酷、最神秘的模型。它們之所以被稱為“神經網絡”,是因為它們是根據我們大腦中神經元的工作方式進行建模的。這些模型在數據集中尋找模式;有時它們會發現人類可能永遠無法識別的模式。


神經網絡可以很好地處理圖像和音頻等複雜數據。從面部識別到文本分類,這些都是我們現在經常看到的軟件背後的邏輯原理。


小白也看得懂的機器學習模型工作原理

圖源:unsplash


有時你可能會有困惑的地方,即使專家也無法完全理解為什麼計算機得出這個結論。在某些情況下,我們在乎的只是它擅長預測!


不過有時我們會關心計算機如何得出其預測結果的,比如是否正在用模型來確定哪些求職者會獲得第一輪面試的機會。


希望本文能讓你加深對這些模型的理解,還能使你意識到它們是多麼酷炫!


小白也看得懂的機器學習模型工作原理

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範


分享到:


相關文章: