徹底理解正態分佈——強大的數學分析工具

徹底理解正態分佈——強大的數學分析工具

每個試圖進入強大的數據科學世界的人都會遇到正態分佈。在這篇文章中,我將以一種非常清晰的方式解釋它到底是什麼,我們如何解釋它,以及為什麼它作為一個每個數據科學家都必須意識到的概念具有巨大的重要性。

什麼是正態分佈?

正態分佈也被稱為高斯分佈或鐘形曲線(因為它看起來像一個鐘),這是統計學中最重要的概率分佈,就像我們在大自然中經常看到的那樣,它有點神奇。例如,身高、體重、血壓、測量誤差、智商得分等都服從正態分佈。

還有一個跟它相關的,並且非常重要的概念,叫中心極限定理,這將在以後的文章中討論。

徹底理解正態分佈——強大的數學分析工具

現在,參考上面的圖像,並瞭解一個正常變量的值是如何分佈的。這是一個對稱分佈,其中大多數觀測值聚集在具有最高發生概率的中心峰(均值/平均值)附近,並且當我們在兩個方向上都偏離中心峰時,我們看到曲線尾部出現值的可能性越來越小。此圖描繪了一個群體的智商水平,可以理解,智商水平非常低或智商水平很高的人很少見,並且大多數人都處於平均智商得分範圍內。

我們周圍的很多很多變量都可以用這個正態分佈來描述。想想所有同事到達辦公室所需要的時間,只有少數人會住在5分鐘或2個多小時的距離內(尾部)。大多數人將在20分鐘-70分鐘的距離(即峰值附近的區域)。當你研究越來越多的正態分佈的變量時,你會發現它無處不在。

正態分佈的參數

正態分佈總是以平均值為中心,而曲線的寬度則由標準差(SD)決定。

徹底理解正態分佈——強大的數學分析工具

這是兩個正態分佈,x軸上的高度單位是英寸,y軸上是特定高度對應的人數。

  1. 嬰兒的平均身高為20英寸(50cm),標準差為0.6英寸(1.5cm)。
  2. 成年人的平均分佈為70英寸(175cm),標準差為4英寸(10cm)

瞭解正態分佈標準差的意義在於,它遵循一個經驗法則,即大約95%的測量值落在均值附近的+/- 2倍個標準差之間。

推論:95%的人口落在平均值+/- 2*SD之間

  1. 95%的嬰兒身高在20 +/- 1.2英寸之間
  2. 95%的成年人身高測量值在70 +/- 8英寸之間

正態分佈的第一個參數是均值

均值或平均值是正態分佈的集中趨勢,它決定了曲線峰值的位置。平均值的變化導致曲線沿x軸水平移動。

正態分佈的第二個參數是標準差SD

標準差是正態分佈變異性的量度,它決定了曲線的寬度。SD值的變化導致曲線變得更窄或更寬,並對曲線的高度產生反比例的影響。

  • 更緊的曲線(較小的寬度)->更高的高度
  • 更寬的曲線(更高的寬度)->更短的高度

現在,你已經瞭解了正態分佈曲線的所有基礎知識。讓我們繼續學習與之相關的其他重要信息。

徹底理解正態分佈——強大的數學分析工具

所有正態分佈的共同特徵

  1. 它們都是對稱的。
  2. 平均值=中位數
  3. 根據經驗法則,我們可以確定正態分佈曲線離均值標準差範圍內的數據百分比。

通過一個示例,這一點將變得更加清楚。

徹底理解正態分佈——強大的數學分析工具

讓我們來看一個披薩外賣的例子。假設一家披薩餐廳的平均配送時間為30分鐘,標準偏差為5分鐘。根據經驗法則,我們可以確定68%的交付時間在25-35分鐘(30 +/- 5)之間,95%在20-40分鐘(30 +/- 2*5)之間,99.7%在15-45分鐘(30 +/-3*5)之間。

當我們知道如何將統計應用於現實生活中的問題時,看到事情變得多麼直觀了嗎?我的統計學家、數據科學家/工程師、ML/AI愛好者或正在閱讀這篇文章的那些好奇的傢伙們,繼續前進吧!

在這篇文章的最後一部分,我們將學習正態分佈的一個特例

標準正態分佈:正態分佈的特例

如前所述,正態分佈根據參數值(平均值和標準差)有許多不同的形狀。標準正態分佈是正態分佈的一個特例,均值為0,標準差為1。這個分佈也稱為Z分佈。

標準正態分佈上的值稱為標準分數或Z分數。標準分數表示某一特定觀測值高於或低於平均值的SD數。

例如,標準得分為1.5表示觀察到的結果比平均值高1.5個標準差。另一方面,負分數表示低於平均值的值。平均值的Z分數為0。

想了解更多精彩內容,快來關注老胡說科學


分享到:


相關文章: