假設我們有數據N個樣本,每個樣本都是一個p維數據,
![機器學習基礎之高斯分佈](http://p2.ttnews.xyz/loading.gif)
此處xi是p維,每個x都是獨立同分布的,服從高緯的高斯分佈。
我們假設參數θ 是固定的,那我們就可以通過最大似然估計來求 θ
先來看最簡單的情形,每個數據都是一維:
![機器學習基礎之高斯分佈](http://p2.ttnews.xyz/loading.gif)
分別求兩個參數的極值
下面解釋兩個非常重要的概念:有偏估計和無偏估計。
我們預估樣本的均值就是總體的均值
樣本的方差比真實的誤差小了。
下面我們來看高維分佈:
其中 Σ 是正定,或半正定矩陣【淺談正定矩陣和半正定矩陣】
稱為馬氏距離,具體的含義如下:
我們來看當p=2維,協方差矩陣為單位矩陣
則馬氏距離就是歐式距離,下面來具體看馬氏距離的含義:
因為 Σ 是正定矩陣,我們可以將其分解為如下形式:
接著我們定義,
物理含義:x向量在ui方向上的投影,於是有:
我們以二維空間來解釋上面的式子的含義:
我們知道 p(x) ~ N(u, Σ) 的高斯分佈,p(x)在0-1之間,那對於不同的p(x) 的取值,我們都會算出一個對應的 ∆ ,那就是對應了一個不同的橢圓大小。
下面說下高斯分佈的幾個限制:
- 隨著xi維數的升高,協方差矩陣參數個數以平方增多
- 解決方法,簡化協方差矩陣,變為對角陣 更進一步,對角陣上特徵都相等【各向同性】
- 高斯函數是一個單峰分佈,不能很好的擬合多峰分佈
- 引入隱變量
最後再聊介紹下條件高斯分佈
求邊緣概率和條件概率
先說一個定理:
此處 x 是p維,A 是 qxp 矩陣,B是q維,則y是一個q維矩陣,且服從高斯分佈。
有了這個定理有:
邊緣分佈:
條件分佈:
最後條件分佈:
下面我們再來求:已知邊緣概率和條件分佈,如何求聯合分佈。
閱讀更多 進擊吧程序猿 的文章