機器學習十大經典算法之EM算法

2020-04-01 14:16:00 承志的算法課堂

今天是機器學習專題的第14篇文章，我們來聊聊大名鼎鼎的EM算法。

EM算法的英文全稱是Expectation-maximization algorithm，即最大期望算法，或者是期望最大化算法。EM算法號稱是十大機器學習算法之一，聽這個名頭就知道它非同凡響。我看過許多博客和資料，但是少有資料能夠將這個算法的來龍去脈以及推導的細節全部都講清楚，所以我今天博覽各家所長，試著儘可能地將它講得清楚明白。

從本質上來說EM算法是最大似然估計方法的進階版，還記得最大似然估計嗎，我們之前介紹貝葉斯模型的文章當中有提到過，來簡單複習一下。

最大似然估計

假設當下我們有一枚硬幣，我們想知道這枚硬幣拋出去之後正面朝上的概率是多少，於是我們拋了10次硬幣做了一個實驗。發現其中

正面朝上的次數是5次，反面朝上的次數也是5次。所以我們認為硬幣每次正面朝上的概率是50%。

從表面上來看，這個結論非常正常，理所應當。但我們仔細分析會發現這是有問題的，問題在於我們做出來的實驗結果和實驗參數之間不是強耦合的。也就是說如果硬幣被人做過手腳，它正面朝上的概率是60%，我們拋擲10次，也有可能得到5次正面5次反面的概率。同理，如果正面朝上的概率是70%，我們也有一定的概率可以得到5次正面5次反面的結果。現在我們得到了這樣的結果，怎麼能說明就一定是50%朝上的概率導致的呢？

那我們應該怎麼辦呢，繼續做實驗嗎？

顯然不管我們做多少次實驗都不能從根本上解決這個問題，既然參數影響的是出現結果的概率，我們還是應該回到這個角度，從概率上下手。我們知道，拋硬幣是一個二項分佈的事件，我們假設拋擲硬幣正面朝上的概率是p，那麼反面朝上的概率就是1-p。於是我們可以帶入二項分佈的公式，算出10次拋擲之後，5次是正面結果在當前p參數下出現的概率是多少。

於是，我們可以得到這樣一條曲線：

也就是正面朝上的概率是0.5的時候，10次拋擲出現5次正面的概率最大。我們把正面朝上的概率看成是實驗當中的參數，我們把似然看成是概率。那麼最大似然估計，其實就是指的是使得當前實驗結果出現概率最大的參數。

也就是說我們通過實驗結果和概率，找出最有可能導致這個結果的原因或者說參數，這個就叫做最大似然估計。

原理理解了，解法也就順水推舟了。

首先，我們需要用函數將實驗結果出現的概率表示出來。這個函數的學名叫做似然函數(likelihood function)。

有了函數之後，我們需要對函數進行化簡，比如一些多次進行的實驗，需要對似然函數求對數，將累乘計算轉化成累加運算等。

最後，我們對化簡完的似然函數進行求導，令導數為0，找出極值點處參數的值，就是我們通過最大似然估計方法找到的最佳參數。

引入隱變量

以上只是最大似然估計的基礎用法，如果我們把問題稍微變化一下，引入多一個變量，會發生什麼情況呢？

我們來看一個經典的例子，同樣是拋硬幣，但是我們將題目的條件稍作修改，那麼整個問題就會完全不同。

這個例子來源於闡述EM算法的經典論文：《Do, C. B., & Batzoglou, S. (2008). What is the expectation maximization algorithm?. Nature biotechnology, 26(8), 897.》在這個例子當中，我們有A和B兩枚硬幣，其中A硬幣正面朝上的概率是0.5，B硬幣正面朝上的概率是0.4，我們隨機從兩枚硬幣當中選取一枚進行實驗。

每次實驗我們一共進行5次，記錄下正反面的個數。經過5輪實驗之後，我們得到的結果如下：

由於我們知道每一輪當中選擇了什麼硬幣進行實驗，所以整個過程依然非常順利。如果我們去掉硬幣的信息，假設我們並不知道每一輪當中選擇了什麼硬幣進行實驗，我們又該怎麼求A和B向上的概率呢？

在新的實驗當中，我們不知道硬幣選擇的情況，也就是說實驗當中隱藏了一個我們無法得知的變量。這種變量稱為隱變量，隱變量的存在干擾了參數和實驗結果的直接聯繫。比如在這個問題當中，我們想要知道每種硬幣正面向上的概率，我們要計算這個概率首先要知道每一輪用了哪一種硬幣。如果我們想要推算每一次實驗用了哪一種硬幣又需要先知道硬幣正面朝上的概率。也就是說這兩個變量互相糾纏、互相依賴，我們已知的信息太少，無法直接解開。就好像先有雞還是先有蛋的問題，陷入死循環。

EM算法正是為了解決這個問題誕生的。

EM算法

前面我們說了，隱變量和我們想要求的參數互相糾纏，形成了一個死循環，但是我們已有的信息不足以讓我們解開這個糾纏。既然無法解開，那麼我們就不解了，我們直接

暴力破解。

是的，你沒有看錯，EM算法的本質非常簡單粗暴：既然我們無法求解隱變量，我們就不求了，我們直接假設一個初始值代入計算，有了結果之後再進行迭代。

比如我們假設p1是硬幣A正面向上的概率，p2是硬幣B正面向上的概率。原本我們是希望通過最大似然估計來求解使得結果出現的p1和p2，現在我們直接假設，進行迭代：

我們假設p1=0.7，p2=0.3，這個值是我們隨便假設的，你可以任意假設其他的值。我們把p1，p2代入上面的結果當中進行計算。

比如第一輪當中，出現的結果是3正2反，如果是A硬幣，出現這樣結果的概率根據二項分佈很容易計算：0.7^3 * 0.3^2 = 0.03087，同理，我們可以算出硬幣B的概率是0.01323。我們用同樣的方法算出所有的概率：

既然我們概率有了，顯然我們可以做預測了，根據這個概率表猜測每一輪究竟用了哪一個硬幣。

根據最大似然的法則，我們可以得出每一輪用的硬幣是：

第一輪是硬幣A

第二輪是硬幣B

第三輪是硬幣B

第四輪是硬幣A

第五輪是硬幣B

猜測出硬幣的分佈之後有什麼用呢？很簡單，我們可以用猜測的結果重新估計p1和p2的值。

比如說硬幣A出現在第一輪和第四輪當中，這兩輪一共做了10次實驗，其中6正4反，那麼我們可以修正p1的值為0.6。硬幣B出現在第2，3，5輪當中，這三輪當中做了15次實驗，一共5正10反，所以正面向上的概率是1/3。可以發現，經過了一次迭代之後，我們的結果向真實值逼近了一些

。

雖然結果還可以，但這種方法依然比較粗糙，我們還有更好的辦法。

例子改進

我們來改進一下上面這個例子的計算過程，主要的問題在於我們在根據假設出來的概率計算分佈之後，我們直接通過似然估計去猜測當前輪次拋了哪一枚硬幣。這樣做當然是可以的，但感覺不夠嚴謹，因為我們直接猜測有些武斷，並不一定準確。

那有沒有更好的辦法？

其實是有的，相比於直接猜測某個輪次當中選擇了哪一枚硬幣，我們可以用選擇硬幣的概率來代入來計算期望，這樣的效果會更好，比如根據剛才的計算結果，我們可以算出每個輪次當中選擇硬幣的概率：

我們在用這個概率帶入實驗結果當中計算期望，可以得到p1的期望表格：

同樣的方法，我們可以算計出新的p2的期望表格：

代入，我們可以得到新的p2是0.377。

把估計結果改成使用概率代入迭代之後，我們的估計的結果精準了許多，也就是說我們收斂的速度更快了。我們重複以上的過程，直到收斂，當收斂的時候，我們就能獲得極大似然估計最大時候p1和p2的取值。這也是整個EM算法的精髓。

我們整理一下EM算法的運作過程，首先我們先隨機出來一個參數的值代入實驗結果，計算出隱變量的概率分佈或者是取值，我們再通過隱變量迭代我們的參數值，如此重複迭代，直到收斂。我們進一步抽象，可以把它主要總結成兩個步驟，分別是E步驟和M步驟：

在E步驟當中，我們根據假設出來的參數值計算出未知變量的期望估計，應用在隱變量上在M步驟當中，我們根據隱變量的估計值，再計算當前參數的極大似然估計

根據這個理論，我們還可以對上面的過程進行改進。

這個方法到這裡就介紹完了，我想大家也應該都能理解，但是我們還沒有從數學上去證明，為什麼這樣操作行得通呢？為什麼這個方法一定會收斂，我們收斂的值就是最優解呢？所以我們還需要通過數學來證明一下。

數學證明

假設我們有一個樣本集X它是由m個樣本構成的，可以寫成X={x1, x2, x3...xm}，對於這m個樣本當中，它們都有一個隱變量z是未知的。並且還有一個參數 θ，也就是我們希望通過極大似然估計求解的參數。由於當中包含隱變量z，所以我們沒辦法直接對概率函數求導求極值進行計算。

我們先寫出含有隱變量的概率函數：Pi = P(xi, zi; θ) 我們希望找到對於全局最優的參數θ，所以我們希望找到使得

最大，我們對這個式子求log，可以得到：

我們假設隱變量z的概率分佈是 Qi(zi) ，所以上式可以變形為：

到這裡似乎卡住了，其實沒有，我們在之前的文章當中寫過，對於凸函數有

Jensen不等式：E[f(x)] >= f(E[x])，即函數的期望值大於等於期望值的函數值。而對數函數是廣義上的凸函數，嚴格意義上的凹函數，它可以使用Jensen不等式，但是不等號的方向需要變號。

而上式當中 Qi(zi) 是隱變量的概率分佈，所以

於是我們可以代入Jensen不等式得到：

上面這個不等號右邊的式子就容易求解多了，當我們固定z變量的時候，我們可以很方便地求解似然最大時的參數 θ。同理當我們有了 θ 的取值之後，又可以來優化z。這種兩個變量固定一個，輪流優化另一個的方法叫做座標上升法，也是機器學習當中非常常用的求解方式。

如上圖所示，這個一圈一圈的是損失函數的等高線。當我們使用座標上升法的時候，我們每次固定一個軸的變量，優化另一個變量，然後交替進行，我們同樣可以得到全局最優解。

除此之外，我們也可以從數學上進行解釋。

由於上面的式子是一個不等式，我們沒有辦法直接求解左邊的最值，所以我們通過不斷優化右邊式子的方法來逼近左邊的最值。我們令左邊的一串式子是 L(θ)，不等號右邊的式子是 J(z, θ) ，然後我們來看一張圖，這張圖是我從大神的博客裡找來的神圖：

上圖當中最上方的紅色是 L(θ) ，下面的圖像是J。我們每次固定z，都可以找到一個更好的 θ，使得 J(z, θ) 朝著高點不斷逼近，最終達到它的最大值。

直覺上這是OK的，但是我們還需要從數學上來證明。

根據Jensen不等式，只有當自變量x是常數的時候才可以取等，我們的自變量是

我們令它等於常數c：

由於 sum(Qi(zi)) = 1，所以我們可以知道 sum(P(xi, zi; θ)) = c，我們代入上式，可以得到：

經過這一串變形之後，我們得到了 Qi(zi) 的計算公式其實是一個後驗概率。這一步也就是我們剛才介紹的E步，之後，在確定了 Qi(zi) 之後，我們來求導求極值的方法求使得函數最大時的 θ，也就是剛才的M步。

所以，整個EM算法的過程就是重複這個過程，直到收斂。

那麼我們又該怎麼保證算法能夠一定收斂呢？其實也不難，由於我們在進行E步驟的時候遵循了Jensen不等式的取等條件求出的z，所以可以保證能夠取到等號，也就是：

當我們固定 Qi(zi) 求導得到極大化的參數 θt+1之後，我們得到右式，一定是優於 L(θ) 的，但是我們不能確定對於新的 θt+1，我們之前的 Qi(ti) 的分佈也能滿足Jensen不等式的取等條件，所以：

這樣我們就證明了似然函數的取值是在遞增的，當最後收斂的時候，就是最大似然估計時的值，此時的參數 θ 就是我們需要的最大似然估計方法得出的參數。

總結

到這裡，EM算法就算是介紹完了。整個算法給我最大的感受是這又是一個建立在數學推導上的算法，它的推導過程非常嚴謹，效果也非常好，通過它可以解決很多直觀上無法解決的問題。並且更難得的是，即使我們拋棄掉數學上嚴謹的證明和推導，也不妨礙我們直觀地理解算法的思路。難怪該算法可以列入十大機器學習算法之一，的確非常經典。

最後，不知道大家在看的時候有沒有一種感覺，就是EM算法的思路好像之前在什麼地方見到過？有種似曾相識的感覺？

有這種感覺是對的，如果你回想一下之前講的Kmeans，你會發現我們好像也是一開始的時候由於不知道聚類的中心進行了猜測。然後通過迭代一點一點地逼近。如果再多想一點，可以發現Kmeans的計算過程是可以和EM算法的過程相印證的。通過建模我們是可以把Kmeans的問題轉化成EM算法的模型，感興趣的同學可以研究一下這個問題，當然也可以期待一下我們後續的文章。

最後，關於EM算法的內容就到這裡，如果覺得有所收穫，請順手點個關注或者轉發吧，你們的舉手之勞對我來說很重要。

分享到:

閱讀更多 承志的算法課堂 的文章

關鍵字: 算法期望機器學習

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型

機器學習：如何計算CNN中的參數數量？

機器學習-模型的評估和選擇

05.15 機器學習-我媽媽也能看懂的入門篇

數據科學家基礎能力——機器學習

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"