04.25 關於正態分佈,你不知道它誕生之路是多麼“變態”

關於正態分佈,你不知道它誕生之路是多麼“變態”

神說,要有正態分佈

於是便有了正態分佈

正態分佈(Normal distribution),相信各位模友都很熟悉,不過,相對於課本直接將概念砸出來,超模君更想跟大家談談這些。。。

關於正態分佈,你不知道它誕生之路是多麼“變態”

關於正態分佈,你不知道它誕生之路是多麼“變態”

正態分佈是最重要的一種概率分佈,超模君今天也打算從早期的概率論說起。

/前方高能,數位著名數學家輪番出場。/

如何分賭金

關於正態分佈,你不知道它誕生之路是多麼“變態”

早期概率論,永遠離不開賭場上的那些事,可以說早期概率論的發展都是得益於當時有點氾濫的賭博活動。

那時,惠更斯、帕斯卡、費馬、雅各布·伯努利等這些早期概率論的奠基人,所研究的概率問題基本都是來自於賭場。

最早的概率論問題就是賭徒梅類在1654年向帕斯卡提出的“如何分賭金”的問題。

甲乙兩個人賭博,他們兩人獲勝的機率相等,比賽規則是先勝三局者為贏家,贏家可以獲得100法郎的獎勵。

當比賽進行到第四局的時候,甲勝了兩局,乙勝了一局,這時由於某些原因中止了比賽,那麼如何分配這100法郎才算比較公平?

根據我們學過的概率論知識,易知,甲獲勝就有兩種情況:①甲贏了第四局,比賽結束;②甲輸掉了第四局而贏了第五局。於是有,概率P(甲)=1/2+(1/2)*(1/2)=3/4。

而乙獲勝的情況就只有一種,同時贏下第四局和第五局,那麼,概率P(乙)=(1/2)*(1/2)=1/4。

因此,這100法郎就應該分給甲100*3/4=75法郎,分給乙100*1/4=25法郎。

關於正態分佈,你不知道它誕生之路是多麼“變態”

這就是數學期望的雛形。

關於正態分佈,你不知道它誕生之路是多麼“變態”

荷蘭物理學家、天文學家、數學家惠更斯:

不好意思,來客串一下

1657年,惠更斯發表了《論賭博中的計算》,在當時還沒有完全明確的關於“概率”的概念的情況下,從一條“公平賭博值”的公理出發,首次推導出3個關於“數學期望”的基本定理,具有劃時代的意義。

  • “公平賭博值”公理:

每個公平博弈的參與者願意拿出經過計算的公平賭注冒險而不願拿出更多的數量。即賭徒願意押的賭注不大於其獲得賭金的數學期望數。

  • “數學期望”基本定理:

①若某人在賭博中以等概率1/2獲得賭金a元、b元,則其數學期望值為:a*1/2+b*1/2,即( a + b)/2元;

②若某人在賭博中以等概率1/3獲得賭金a 、b 元和c元 ,則其數學期望值為( a + b + c)/3元;

③若某人在賭博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 獲得賭金a元、b元 ,則獲得賭金的數學期望值為p*a + q*b 元。

關於正態分佈,你不知道它誕生之路是多麼“變態”

不過,有點遺憾的是,惠更斯對概率論的討論僅僅侷限在擲篩子等賭博活動中,並沒有將其擴展運用到其他概率事件裡。

關於正態分佈,你不知道它誕生之路是多麼“變態”

瑞士數學家雅各布·伯努利:

沒錯,就是伯努利家族裡最紅的那個

直到1713年,雅各布·伯努利的代表作《猜度術》終於出版(此時,伯努利已經去世有8年了)。

在《猜度術》中,伯努利不僅對惠更斯的關於賭博中出現各種情況的概率進行了大量計算,還提出了著名的“大數定律”。

伯努利大數定律:概率論歷史上的第一個極限定理,指“當試驗次數足夠多時,事件發生的頻率無窮接近於該事件發生的概率”。

大數定律自誕生開始,便產生了極其深遠的影響,為後來的很多統計方法和理論的建立奠定了堅實的基礎。

/模友:說好的正態分佈呢!正太在哪裡了??/

/超模君:來了來了。。。/

正態分佈的發現

超模君說了怎麼多,正態分佈的發現者終於表示受不了,要自己出場了。。。

他就是法國數學家棣莫弗

關於正態分佈,你不知道它誕生之路是多麼“變態”

棣莫弗:終於到我出場了

雖然伯努利得出了“無限地連續進行試驗,我們終能正確地計算任何事物的概率,並從偶然現象之中看到事物的秩序”這樣的結論,但並沒有表述出這種偶然現象中的秩序,而棣莫弗便是第一個將這種秩序表述出來的人。

其實,在伯努利《猜度術》出版之前,棣莫弗就對概率論進行了廣泛且深入的研究,已於1711年在英國皇家學會的《哲學學報》上發表了《抽籤的測量》,這就是早期概率論史上三大著作之一的《機遇論》的前身。

早期概率論歷史上的三部里程碑式的著作:伯努利的《猜度術》、棣莫弗的《機遇論》、拉普拉斯的《分析概率論》。

關於正態分佈,你不知道它誕生之路是多麼“變態”

不過,比較搞笑的是,棣莫弗關於概率論的研究依然離不開賭博問題。。。

偶然的一天,一賭徒向棣莫弗提出了一個與賭博有關的問題。

甲乙二人在賭場裡賭博,他們獲勝的概率分別是p和q=1−p,賭n局,如果甲贏的局數X>np,則甲就得付給賭場X−np元,否則就是乙付給賭場np−X元。問:賭場掙錢的數學期望是多少?

這是一個二項分佈問題,可知答案是2npqb(n,p,np),其中b(n,p,np)為二項概率。

不過,這只是理論結果,而對於具體的n值(尤其是n值較大時),計算實際的期望值並不是一件容易的事,於是,棣莫弗決定找出一個更方便計算的近似公式。

只見棣莫弗直接令p=½,嘗試攻破這一特定概率的近似公式,就這樣幾年過去了,在1733年,終於取得了重要進展。他結合斯特林公式

關於正態分佈,你不知道它誕生之路是多麼“變態”

,進行了一系列研究,然後出現了神奇的一幕:

關於正態分佈,你不知道它誕生之路是多麼“變態”

關於正態分佈,你不知道它誕生之路是多麼“變態”

正態分佈的概率密度函數就這樣出現了

,由此可知,二項分佈的極限分佈就是正態分佈。

當時,棣莫弗是瞥見了正態曲線的雛形的,而最後正態分佈的主要功勞給了高斯(正態分佈也稱高斯分佈),很大程度是因為棣莫弗不是一個統計學家,他當初的這項工作也沒有得到重視,他也從來沒有從統計學的角度上考慮過這個問題。。。

關於正態分佈,你不知道它誕生之路是多麼“變態”

不過,棣莫弗雖然“無視”了正態分佈(當時也還沒叫正態分佈),但這幾年的研究也不是沒有收穫,概率論中的“首席定理”——中心極限定理就是他首次提出的。

接著,拉普拉斯在他發表的《分析概率論》對棣莫弗的結論進行了拓展(對於p≠½的情況的更多分析結果),人們稱之為棣莫弗-拉普拉斯中心極限定理。

棣莫佛-拉普拉斯(de Movire - Laplace)定理,即服從二項分佈的隨機變量序列的中心極限定理。它指出,參數為n, p的二項分佈以np為均值、np(1-p)為方差的正態分佈為極限。

關於正態分佈,你不知道它誕生之路是多麼“變態”

拉普拉斯:這裡不可能沒有我。

1780年,拉普拉斯建立了中心極限定理的一般形式,隨後,中心極限定理又被其他數學家推廣到不限於二項分佈的其他任意分佈,再後來,統計學家發現,一系列的重要統計量,當樣本量 N 趨於無窮時, 其極限分佈均有正態的形式。

關於正態分佈,你不知道它誕生之路是多麼“變態”

作為概率論的大牛,拉普拉斯表示既然來了,就不會輕易退場。於是,他開始搗鼓人們一直疑惑的

隨機誤差

(這在當時需要處理大量測量數據的天文學界是一個很棘手的問題)。

遺憾的是,研究了好幾年,拉普拉斯仍然沒法搞定誤差分佈的問題,儘管他已經假定了誤差分佈函數,但由於計算過於複雜只好放棄。

關於正態分佈,你不知道它誕生之路是多麼“變態”

拉普拉斯誤差分佈曲線

這時,終極大佬高斯姍姍來遲,大手一揮便解決了這個問題。。。。

關於正態分佈,你不知道它誕生之路是多麼“變態”

高斯:不好意思,我來晚了。

也許他天才的直覺準得有點過分了,正當別人費盡腦筋都想不出的時候,高斯有點雞賊地選擇將問題反過來想。

只見高斯提出了極大似然估計的思想,並猜想人們公認的“算術平均是不會錯的估計”等價於對真值的極大似然估計,然後反過來尋找怎樣的誤差分佈能使這一猜想成立。

與常人顛倒的思路竟然讓高斯一路暢通無阻,很快,他便證明了在所有的概率密度函數中,使得猜想成立的只有以下一種情況:

關於正態分佈,你不知道它誕生之路是多麼“變態”

關於正態分佈,你不知道它誕生之路是多麼“變態”

正態分佈密度函數就這樣被高斯推出來了,與此同時,高斯根據他的正態誤差理論,確立了最小二乘法的概念。

有了高斯的認證,正態分佈迅速活躍在誤差分析中,人們可以輕鬆對誤差大小的影響進行統計度量,由於高斯的這幾項關鍵性工作,人們將正態分佈命名為“高斯分佈”。

正態分佈的完善

雖然說,要成為一個好的數學家,你首先必須得是一個好的猜想家。儘管高斯得出的結論是正確的,但當初推導的思路確實有點“雞生蛋,蛋生雞”的嫌疑。(人們都說高斯是接受了神的旨意。)

於是,正態分佈的理論完善就交給了其他數學家。

關於正態分佈,你不知道它誕生之路是多麼“變態”

拉普拉斯看到了高斯發表的理論之後,驚奇地發現這個密度函數分明在自己之前的研究裡出現過,並且認定這肯定不是巧合!

拉普拉斯馬上將自己的中心極限定理與正態分佈理論聯繫起來:如果將誤差看成許多的微小量(稱為“元誤差”)疊加的總和,根據中心極限定理,隨機誤差便服從正態分佈。

隨著中心極限定理的不斷完善,高斯的結論也得到了越來越多的理論支持,正態分佈逐漸在誤差分析中確立了地位,稱霸於其他一切概率分佈。

關於正態分佈,你不知道它誕生之路是多麼“變態”

正態誤差態分佈律

而關於它的命名,自它火了之後,各國人民都爭先恐後幫它起名字:由於拉普拉斯是法國人,於是,法國人民稱之為“拉普拉斯分佈”;高斯是德國人,當時德國就喜歡叫它“高斯分佈”;其他國家的人們呢,嗯,不知道站哪邊,便直接叫它“拉普拉斯-高斯分佈”。

關於正態分佈,你不知道它誕生之路是多麼“變態”

俺明明叫正太!

正當人們吵得不可開交的時候,龐加萊站了出來,他建議改用正態分佈這一中立名稱,後來,統計學家卡爾·皮爾森也說了一句公道話,使得人們接受了正態分佈這個名字:

Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”.

關於正態分佈,你不知道它誕生之路是多麼“變態”

不過,高斯的名氣實在太大了,高斯分佈的名字並不是想去掉就去掉的,因此,現在數學界正太分佈、高斯分佈兩個名字通用。

最後,超模君只想感嘆一下,高斯的力量一如既往的強啊!

本文系網易新聞·網易號“各有態度”特色內容

部分資料來源於《正態分佈的前世今生》

-----這裡是數學思維的聚集地------

“超級數學建模”(微信號supermodeling),每天學一點小知識,輕鬆瞭解各種思維,做個好玩的理性派。50萬數學精英都在關注!


分享到:


相關文章: