之前我們已經介紹過最大似然估計的概念,這種估計法在機器學習領域有廣泛的應用。本文將用線性迴歸舉例,闡述最大似然估計在尋找模型最優參數方面的具體用途。
最大似然估計在線性迴歸中的應用
先來回顧一下線性迴歸的公式:
假設共有 N 個樣本,其中 x 是一個樣本, y 是當前樣本的已知輸出,w 是模型的參數,是未知量,ϵ 是當前數據的噪聲,假設它服從均值為 0,方差為 σ 平方的高斯分佈,即:
假設數據集中每一個樣本發生的概率都是相互獨立的,那麼似然函數可以表示為如下公式:
在最大似然估計中,我們要求的是當參數 w 為何種情況時,似然函數最大,即當前數據產生的可能性最大。概率 P(X) 無論在何種情況下都是一定的(且介於 0-1 之間),不會影響最終結果,因此上式可以簡化成如下形式:
為了方便計算,對上式採用 log 變化。
為什麼可以採用對數似然函數呢?
因為自然對數是一個單調遞增的函數,概率的最大對數值出現在與原始概率函數相同的點上,如下圖所示。
因此取對數不會影響 θ 的結果。
據此,我們可得到如下推導:
這樣連乘的問題就變成了連加的問題。
已知噪聲服從均值為 0 ,方差為 σ 平方的高斯分佈,根據線性迴歸公式,可以得出下式:
根據高斯分佈的概率密度公式,我們可以得出:
將上式帶入到似然函數中,得:
有一些參數我們是不關心的,最後得到的公式的第一項和第二項的常數項,因為他們並不影響 w 取何值時 L(w) 最大,或者可以從這個角度理解:求最優解的時候,求對 w 的偏導數時,第一項和第二項的常數項最終都會被消去。
據此,我們可以得到最後的公式:
我們得到的損失函數(cost function)和通過最小二乘法得到的損失函數是完全一致的。在線性迴歸中,對於同一個損失函數,既可以通過最小二乘法從線性代數的視角解釋,也能通過最大似然估計以統計估計的角度解讀。
本文中我介紹了最大似然估計在線性迴歸中的應用。對於邏輯迴歸的損失函數,同樣可以用最大似然估計以統計學的視角解讀,你可以嘗試推導一下,具體的推理過程將在邏輯迴歸的章節闡述。
互動話題:機器學習專欄已經開播第三期啦!小夥伴有想要學習的有關機器學習的內容都可以留言,力扣會選取點贊最高的留言作為專欄之後的主題內容。
閱讀更多 力扣LeetCode 的文章