機器學習 — 最大似然估計的應用

專欄 | 機器學習 — 最大似然估計的應用

之前我們已經介紹過最大似然估計的概念,這種估計法在機器學習領域有廣泛的應用。本文將用線性迴歸舉例,闡述最大似然估計在尋找模型最優參數方面的具體用途。


最大似然估計在線性迴歸中的應用

先來回顧一下線性迴歸的公式:

專欄 | 機器學習 — 最大似然估計的應用

假設共有 N 個樣本,其中 x 是一個樣本, y 是當前樣本的已知輸出,w 是模型的參數,是未知量,ϵ 是當前數據的噪聲,假設它服從均值為 0,方差為 σ 平方的高斯分佈,即:

專欄 | 機器學習 — 最大似然估計的應用

假設數據集中每一個樣本發生的概率都是相互獨立的,那麼似然函數可以表示為如下公式:

專欄 | 機器學習 — 最大似然估計的應用

在最大似然估計中,我們要求的是當參數 w 為何種情況時,似然函數最大,即當前數據產生的可能性最大。概率 P(X) 無論在何種情況下都是一定的(且介於 0-1 之間),不會影響最終結果,因此上式可以簡化成如下形式:

專欄 | 機器學習 — 最大似然估計的應用

為了方便計算,對上式採用 log 變化。

為什麼可以採用對數似然函數呢?

因為自然對數是一個單調遞增的函數,概率的最大對數值出現在與原始概率函數相同的點上,如下圖所示。

專欄 | 機器學習 — 最大似然估計的應用

因此取對數不會影響 θ 的結果。

據此,我們可得到如下推導:

專欄 | 機器學習 — 最大似然估計的應用

這樣連乘的問題就變成了連加的問題。

已知噪聲服從均值為 0 ,方差為 σ 平方的高斯分佈,根據線性迴歸公式,可以得出下式:

專欄 | 機器學習 — 最大似然估計的應用

根據高斯分佈的概率密度公式,我們可以得出:

專欄 | 機器學習 — 最大似然估計的應用

將上式帶入到似然函數中,得:

專欄 | 機器學習 — 最大似然估計的應用

有一些參數我們是不關心的,最後得到的公式的第一項和第二項的常數項,因為他們並不影響 w 取何值時 L(w) 最大,或者可以從這個角度理解:求最優解的時候,求對 w 的偏導數時,第一項和第二項的常數項最終都會被消去。

據此,我們可以得到最後的公式:

專欄 | 機器學習 — 最大似然估計的應用

我們得到的損失函數(cost function)和通過最小二乘法得到的損失函數是完全一致的。在線性迴歸中,對於同一個損失函數,既可以通過最小二乘法從線性代數的視角解釋,也能通過最大似然估計以統計估計的角度解讀。

本文中我介紹了最大似然估計在線性迴歸中的應用。對於邏輯迴歸的損失函數,同樣可以用最大似然估計以統計學的視角解讀,你可以嘗試推導一下,具體的推理過程將在邏輯迴歸的章節闡述。

互動話題:機器學習專欄已經開播第三期啦!小夥伴有想要學習的有關機器學習的內容都可以留言,力扣會選取點贊最高的留言作為專欄之後的主題內容。


分享到:


相關文章: