“統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的”——無名氏
統計是有一些枯燥,但同時也可以很有趣,不是麼?
我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。
什麼是描述性統計呢?維基百科的定義:
"A descriptive statistic is a summary statistic that quantitatively describes orsummarizes features of a collection of information."
中文翻譯:描述性統計是一種彙總統計,用於定量描述或總結信息集合的特徵。
這裡把關鍵詞勾劃一下:
1、Describe-描述
2、Summarize-總結
注意:描述性統計的對象既可以是總體,也可以總體的一部分即是樣本。
一、描述性統計的分類
描述性統計又分為
§ 集中趨勢 Measures of central tendency
§ 離散趨勢 Measures of Dispersion
1、集中趨勢 Measures of Central Tendency
集中趨勢又稱 “數據的中心位置”,它是一組數據的代表值。集中趨勢的概念就是平均數(Average)的概念,它能夠對總體的某一特徵具有代表性,表明所研究的對象在一定時間、空間條件下的共同性質和一般水平。
常用的集中趨勢統計量(statistics)有:
§ 算數均值
§ 中位數
§ 眾數
再強調下,在統計學中,這三個統計量都有 average(平均) 的含義。
1、均值 Mean
某組觀測值的算術平均數(Arithmetic mean)
2、中位數 Median
按大小順序排列的數據組之中點位置對應的數值,該數值把數據組分成兩半
3、眾數 Mode
出現頻次最高的觀測值。
看起來集中趨勢的概念很簡單,那麼有什麼現實價值?
這裡我們舉兩個簡化的例子加以說明:
某創業公司A有10個員工,其中1人月薪10萬,9人月薪2萬;創業公司B也有10個員工,其中1人月薪5萬,9人月薪2.5萬。
現在假設你要對兩家公司員工的收入水平進行對比,你會如何做呢?
通過簡單計算我們可得:
公司A:
算術平均 Mean 2.8萬;中位數 Median 2萬;眾數 Mode 2萬
公司B:
算術平均 Mean 2.75萬;中位數 Median 2.5萬;眾數 Mode 2.5萬
如果看均值 Mean,結果是A公司比B公司高(少數高收入者會把整體平均拉高);如果看中位數 Median,顯然B公司更高。
那麼應該用Mean還是Median?這取決於我們的目的。
如果我們的目的是研究大多數人的薪資水平,顯然用中位數更好,因為B公司90%的人的薪水要高於A公司。
但是在現實生活中,我們往往看到的是用均值mean進行統計說明,尤其是國內媒體,經常用均值來描述某地區某時間段的收入水平。一個不好的結果是,大部分人都會覺得自己“被平均”了。這樣做出來的數據固然好看(就像上述公司A),但並不能更準確地展示普通大眾真實的收入水平。
看到這裡,你應該就能深刻理解“統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的”這句話的含義了是不。
二、離散趨勢 Measure of Dispersion
所謂離散趨勢就是研究觀測值偏離中心值(center) 的程度。僅僅研究集中趨勢往往是不夠的,所以還需要研究離散趨勢Measure of Dispersion.
常用離散統計量有:
§ 極差
§ 標準差(方差)
§ 四分位數間距
§ 變異係數(相對標準差)
1、極差 Range
為一組數據的最大值和最小值之差。極差的計算較簡單,但是它只考慮了數據中的最大值和最小值,而忽略了全部觀察值之間的差異。極差在SPC控制圖中有大量應用。
2、方差或標準差 Variance or Standard deviation
方差和標準差所反映的是一組數據與其均值為代表的中心的平均離散水平。因為標準差的計算應用到每一個變量值,所以,會受到極端值的影響,當數據中有較明顯的極端值(outlier)時不宜使用。必須知道這一點,所有方差/標準差分析的前提是:樣本總體服從正態分佈,如果不服從,就要有補救措施,比如數據轉換。
3、四分位數間距 Inter Quartile Range (IQR)
即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。第三 "四分位數" 與第一 "四分位數" 的差距又稱四分位距, 常和中位數一起使用。比如箱型圖。
4、變異係數 Coefficient of Variation (CV)
又叫相對標準差(RSD),變異係數CV是原始數據標準差與原始數據平均數的比。標準差只能度量一組數據對其均值的偏離程度。但若要比較兩組數據的離散程度,用兩個標準差直接進行比較有時就顯得不合適了。例如一個總體的標準差是10,均值是100;如果另有一個總體的標準差是20,均值是2000。如果直接用標準差來進行比較,後一總體的標準差是前一總體標準差的2倍,似乎前一總體的分佈集中,而後一總體的分佈分散。但前一總體用標準差來衡量的各數據的差異量是其均值的1/10;後一總體用標準差來衡量的各數據差異是其均值的1/100,是微不足道的。可見用標準差與均值的比值大小來衡量不同總體數據的相對分散程度更合理。
三、圖形化工具
前文剛開始我們提到關於描述性統計的兩個關鍵詞是 Describe(描述) 和 Summarize(總結);同時我們也介紹了可以通過集中趨勢統計量以及離散趨勢統計量來對目標數據進行描述、總結。但這些統計量基本都是數學計算,比較抽象,有沒有更好的方法呢?
答案是有:Visulization!
沒錯,那就是一系列的圖形化工具。
在Excel軟件或者Minitab軟件都有很多圖形化工具用以描述、總結和展示數據,下面摘選部分:
§ 柱狀圖
§ 條形圖
§ 箱型圖
§ 散點圖
§ 雷達圖
§ 氣泡圖