數據分析界的AK47——正態分佈

引言

數學之美在於公式之美、形態之美。公式之美在於簡潔之美、和諧之美、秩序之美;形態之美在於對稱之美、平衡之美。如果從數學世界進行選美,那麼正態分佈絕對算得上是其中之一。

數據分析界的AK47——正態分佈

正態分佈的公式非常具有數學美感,一個公式中包含了數學界2個重要的常量π和е,這是正態分佈的和諧之美;從複雜的自然界中抽象出世界的規律,從混沌中找出秩序,這是正態分佈的秩序之美。

數據分析界的AK47——正態分佈

對稱是美學的基本法則之一,正態分佈的曲線是一個對稱的鐘形曲線, 中間達到峰值,首尾分別向無窮遠處延伸開去,有起有落,這是自然界的平衡之美。

正態分佈簡介

正態分佈又叫高斯分佈,是統計學中一個非常核心的概率分佈模型,是自然界最常見的一種分佈,嬰兒出生時的體重服從正態分佈、人類的IQ服從正態分佈、人類的身高服從正態分佈、穿的鞋碼服從正態分佈等等。

數據分析界的AK47——正態分佈

數據分析界的AK47——正態分佈

數據分析界的AK47——正態分佈

數據分析界的AK47——正態分佈

正態分佈在生活中如此常見,你是否會覺得正態分佈是根據經驗總結出來的呢?No,正態分佈可不是簡單的經驗總結,而是經過嚴謹的數學論證得出來的。

歷史上概率論的誕生和發展非常有趣,概率論一開始誕生於賭桌上,是為了解決如何公平的為賭徒們分配賭金問題。而當時也沒有所謂的數學家,數學家這個稱謂是後來發展出數學這個學科後,給那些在數學領域有一定建樹的人的。當時研究數學的人要麼是一些神父或者法官這樣有正當職業的人,要麼是一些公爵或權貴人物有穩定經濟來源的人,當時研究數學並不是為了找工作和賺錢,而是一種興趣愛好,或者是為了獲得一種能夠了解自然掌握自然規律的優越感。

數據分析界的AK47——正態分佈

亞伯拉罕·棣莫弗

而第一次發現正態分佈的人是法國數學家亞伯拉罕·棣莫弗,棣莫弗是個數學天才,他跟牛頓是好朋友。棣莫弗第一次將正態分佈的的密度函數以數學的形式推導展現給世人,後來經過拉普拉斯的完善,形成了我們今天看到的棣莫弗—拉普拉斯中心極限定理

數據分析界的AK47——正態分佈

你會發現我們熟悉的正態分佈的密度函數就在公式中,這就是數學的嚴謹之美和邏輯之美。

中心極限定理告訴我們:對於給定的一個未知分佈的數據集,其樣本均值將近似於正態分佈。

數據分析界的AK47——正態分佈

但是中心極限定理需要滿足3個條件:

  1. 樣本必須是隨機抽樣;
  2. 樣本必須相互獨立;
  3. 樣本數量必須足夠大。

實際上,中心極限定理解答了我們的另外一個問題:正態分佈為什麼如此常見?自然界中只要是滿足上述3個條件的樣本,其樣本均值最終都會符合正態分佈。

數據分析界的AK47——正態分佈

約翰·卡爾·弗里德里希·高斯

話說回來,為什麼正態分佈又叫高斯分佈而不叫棣莫弗分佈呢?是因為棣莫弗在當時並不是個統計學家,對自己的推導公式並沒有從統計學的角度去加以應用,導致其成果在當時並沒有引起足夠重視。70多年後,高斯在研究測量誤差時又推導出了正態分佈,並將正態分佈和最小二乘法聯繫在一起,並在統計誤差分析中確立了自己的定位,使得正態分佈發揚光大,讓更多的人知道了正態分佈的強大魅力。

為了紀念偉大的高斯,德國10元馬克紙幣的正面印有高斯和正態分佈,可謂是“數”中自有黃金屋。


數據分析界的AK47——正態分佈

數據分析界的AK47——正態分佈

歷史上第一個演示正態分佈產生過程的是一個生物學家叫高爾頓,他為了解釋生物學遺傳現象,設計了一個叫高爾頓釘板的裝置,模擬了正態分佈的生成過程和性質。

數據分析界的AK47——正態分佈

正態分佈的性質

數據分析界的AK47——正態分佈

正態分佈有2個重要的參數:

數據分析界的AK47——正態分佈

正態分佈曲線圍繞均值對稱。而且,均值、中位數和眾數都相同。

對方差進行開方就是標準差:

數據分析界的AK47——正態分佈

正態分佈的標準差控制分佈範圍。從標準差的定義我們可以直觀的感受到,標準差越小,意味著數據整體越接近均值,所以分佈曲線越瘦、越陡;標準差越大,意味著數據與均值相差較大,所以分佈曲線越胖、越平坦。根據經驗,大約68.27%的數據落在均值的一個標準偏差之內;95.45%的數據落在在均值的兩個標準差之內;99.73%的數據落在均值的三個標準差之內。

數據分析界的AK47——正態分佈

正態分佈的另一個重要特性時非常“瓷實”,對正態分佈的運算始終保持正態形狀,例如:

  • 兩個正態分佈的乘積是正態分佈
  • 兩個正態分佈的和是正態分佈
  • 兩個正態分佈的卷積是正態分佈
  • 正態分佈的傅立葉變換還是正態的

真可謂是:任爾東南西北風,我自巋然不動。

奧卡姆剃刀強調一個哲學原理,既在其他條件相同的情況下,越簡單的解既是較好的解。正態分佈整體上簡潔美觀,只需要均值和方差2個參數即可確定整個分佈,其特性相當穩定,如同一把AK47,集美學與實用性於一體,最重要的是非常穩定。

標準正態分佈

當均值為0,標準差為1時,正態分佈稱為標準正態分佈。對於任何的正態分佈我們可以通過以下公式將其轉換為標準正態分佈:

數據分析界的AK47——正態分佈


數據分析界的AK47——正態分佈

為了更好的理解將正態分佈轉換為標準正態分佈的重要性,我們舉個例子:假設小明同學數學考了65分,小強同學英語考了80分,那麼誰在本次考試中考的更好一點呢?初看這個問題,可能覺得這是沒有任何比較意義的,因為這是2門不同的學科成績,但是如果告訴你全班數學的平均分是60,標準差是4,全班英語平均分是79,標準差2,我們就可以計算出2個同學的考試成績在全班是什麼程度。

數據分析界的AK47——正態分佈

數據分析界的AK47——正態分佈

數據分析界的AK47——正態分佈

所以,小明的成績比平均分高1.25個標準差,而小強只高0.5個標準差,所以小明的表現更好一點。

分佈的正態性檢驗

儘管中心極限定理告訴了我們正態分佈存在的普遍性,但是現實往往是我們獲取的數據樣本表現出了偏斜,主要原因是數據樣本量不夠。檢驗正態分佈可以通過以下幾種方法。

  • 直方圖
    1. 直方圖能夠顯示連續區間內數據的分佈情況;
    2. 直方圖中的每個條形表示數值範圍頻率;
    3. 直方圖的高度表示每個數值出現的頻率。

    我們還是以考試成績來舉例說明:

    <code>import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    
    df = pd.read_csv('E:\Marks.csv')
    df.hist(bins = 10, figsize = (20,15))
    plt.show()/<code>
    數據分析界的AK47——正態分佈

    可以看出數學成績遵循正態分佈,英語和歷史分別是右偏和左偏分佈。

    • KDE圖

    如果設置不同數量的數值寬度範圍或者只是更改數值範圍的起始值和結束值,直方圖可能會有很大的變化。為了解決這個問題,我們可以利用密度函數。密度圖是根據數據估計的直方圖的平滑連續版本。最常見的估計形式是核密度估計(KDE)。KDE將每個單獨的數據點繪製一條連續曲線(核),然後將所有這些曲線加在一起,實現單次平滑密度估計。

    <code>%matplotlib inline
    import numpy as np 
    import seaborn as sns
    
    sns.kdeplot(math)/<code>
    數據分析界的AK47——正態分佈


    數據分析界的AK47——正態分佈

    數據分析界的AK47——正態分佈

    • Q_Q圖

    Q_Q圖是一種散點圖,正態分佈的Q_Q 圖以標準正態分佈的分位數為橫座標,以樣本值為縱座標。用Q_Q圖檢驗樣本是否服從正態分佈,只需看Q_Q圖上的點是否近似地在一條直線,如果是直線說明樣本服從正態分佈,並且直線的斜率標準差,截距均值

    <code>import pandas as pd
    from scipy import stats
    from matplotlib import pyplot as plt
    import seaborn as sns
    
    data = pd.read_csv('E:\Marks.csv')
    math = data['Maths_Marks']
    english = data['English_Marks']
    history =  data['History_Marks']
    
    stats.probplot(history,dist="norm", plot=plt)
    plt.show()/<code>
    數據分析界的AK47——正態分佈

    數據分析界的AK47——正態分佈

    數據分析界的AK47——正態分佈

    由圖中可以看出數學成績服從正態分佈;英語成績較大的值比正態分佈的期望值要大,較小的值也比正態分佈的期望值大,這與英語成績的右偏分佈一致;歷史成績較大的值比正態分佈的期望值小,較小的值也比正態分佈的期望值小,這與歷史成績的左偏分佈一致。

    3個科目成績分佈如下圖所示。

    數據分析界的AK47——正態分佈

    總結

    正態分佈是自然界最普遍的分佈,統計學中的許多分佈都是基於正態分佈演變而來,正態分佈由於其普適性和簡潔性,在統計學中處於至關重要的地位,學好正態分佈對於學習數據科學和統計學是必要條件。


    分享到:


    相關文章: