對深度學習和機器學習工程師而言,在世界上所有的概率模型中,高斯分佈(Gaussian distribution)模型最為引人注目。即使你從來沒有進行過AI項目,有很大的幾率你曾經遇到過高斯模型。
高斯分佈,又稱為正態分佈(Normal distribution),常常可以通過其標誌性的鐘形曲線識別出來。高斯分佈如此流行,有三大原因。
![站在AI的背後的男人——高斯](http://p2.ttnews.xyz/loading.gif)
高斯概率分佈函數
在自然現象中普遍存在
所有的模型都是錯的,但有些模型有用!
—— George Box
![站在AI的背後的男人——高斯](http://p2.ttnews.xyz/loading.gif)
擴散中的微粒的位置可以用高斯分佈描述
自然科學和社會科學中有極其大量的過程天然遵循高斯分佈。即使當它們並不遵循高斯分佈的時候,高斯分佈也往往提供最佳的逼近。一些例子:
- 成人的身高、血壓、智商
- 擴散中的微粒位置
- 測量誤差
數學上的原因:中心極限定理
二維平面隨機行走兩百萬步
中心極限定理表明,滿足一定條件時,大量相互獨立的隨機變量經適當標準化後,收斂於高斯分佈。例如,隨機行走的總距離分趨向於高斯概率分佈。
這一定理意味著專門為高斯模型開發的大量科學方法和統計學方法同樣適用於可能牽涉其他類型分佈的廣闊領域內的問題。
可以認為,這一定理解釋了為什麼這麼多自然現象遵循高斯分佈。
另外,高斯分佈在一些轉換後仍然是高斯分佈:
- 高斯函數經傅里葉變換後,所得仍為高斯函數。
- 兩個高斯函數的積仍然是高斯函數。
- 兩個高斯函數的卷積仍然是高斯函數。
- 兩個符合高斯分佈的獨立隨機變量之和仍然符合高斯分佈。
簡單性
奧卡姆剃刀原則強調在其他條件相同時,最簡單的解是最佳解
對每個高斯模型逼近而言,可能存在一個提供更好的逼近的複雜多參數分佈。然而,我們仍然選擇高斯模型,因為它大大簡化了數學!
- 均值、中位數、眾數均相等
- 整個分佈僅需指定兩個參數——均值和方差
高斯分佈得名於偉大的數學家和物理學家卡爾·弗里德里希·高斯(Carl Friedrich Gauss)。
閱讀更多 論智 的文章