概率統計中的參數估計

如果我們知道了隨機變量滿足某種分佈,但其分佈的參數未知怎麼辦呢?比如我們知道某地區男生的身高滿足正態分佈,但是正態分佈的均值、方差未知怎麼辦呢?這就是參數估計問題。有兩種參數估計的方法,一種叫做

矩估計法,一種叫做最大似然估計。矩估計法就是用樣本的各階原點矩作為約束條件來聯立方程組,比如正態分佈的一階原點矩就是均值,二階原點矩就是方差。這樣我們就可以得到兩個方程,然後以樣本矩作為總體矩的估計量聯立方程組求解參數方程;另一種方式稱為最大似然估計法,通過求最大似然函數的導數獲得參數方程來求解。而後一種方法是我們在機器學習中最常遇到的,個人覺得是因為推導和求解比較方便,兩種方法的結果是一致的。作為估計量的樣本函數選擇有三個標準:無偏性、有效性、相合性,無偏性指選的估計量的數學期望與真實值之間無差異(沒有系統誤差),有效性是指選擇的估計量的方差越小則性能越好,相合性是指估計量當樣本數趨於無窮時依概率收斂估計對象。

另外,對於一個未知量,我們往往不光要估計它的值,同時還需要給出這個估計的可信度,這就是區間估計。區間估計問題往往要找到一個樞軸量,它的分佈不依賴於參數及其他未知數。以正態總體均值與方差的區間估計為例,方差已知時可以將其轉化為標準N(0,1)正態分佈求其置信區間,如方差未知,則需要藉助t分佈、F分佈來求置信區間了。至於怎麼求不用太糾結,直接套公式就好。關鍵是知道要解決什麼問題,選擇適合的方法。估計的置信區間有單側置信區間和雙側置信區間,也是根據問題來的,我要知道未知量估計的上下界就是雙側置信區間估計,如果只需要上界或者只需要知道下界就是單側置信區間的估計問題原理類似套公式可得。


概率統計中的參數估計


分享到:


相關文章: