用統計指標對定量數據進行統計描述,常從集中趨勢和離散趨勢兩個方面進行分析。
平均水平的指標是對個體集中趨勢的度量,使用最廣泛的是均值和中位數;反映變異程度的指標則是對個體離開平均水平的度量,使用較廣泛的是標準差(方差)、四分位數間距。
集中趨勢度量
(1)均值
均值是所有數據的平均值。如果求n個原始觀察數據的平均數,計算公式為:
有時,為了反映在均值中不同成分所佔的不同重要程度,為數據集中的每一個Xi賦予Wi,這就得到了加權均值的計算公式:
作為一個統計量,均值的主要問題是對極端值很敏感。如果數據中存在極端值或者數據時偏態分佈的,那麼均值就不能很好地度量數據的集中趨勢。為了小數少數極端值的影響,可以使用截斷均值或者中位數來度量數據的集中趨勢。階段均值是去掉高、低極端值之後的平均數。
(2)中位數
中位數是將一組觀察值從小到大按順序排列,位於中間的那個數據。即在全部數據中,小於和大於中位數的數據個數相等。
將某一數據集X:{X1,X2,...,Xn}從小到大排序:{X(1),X(2),...,X(n)}。
當n為奇數時
當n為偶數時
(3)眾數
眾數是指數據集中出現最頻繁的值。眾數並不經常用來度量定性變量的中心位置,更適用於定性變量。眾數不具有唯一性。
離散趨勢度量
(1)極差
極差=最大值-最小值。極差對數據集的極端值非常敏感,並且忽略了位於最大值與最小值之間的數據是如何分佈的。
(2)標準差
標準差度量數據偏離均值的程度,計算公式為:
(3)變異係數
變異係數度量標準差相對於均值的離散趨勢,計算公式為:
變異係數主要用來比較兩個或多個具有不同單位或不同波動幅度的數據集的離散趨勢。
(4)四分位數間距
四分位數包括上四分位數和下四分位數。將所有數值由小到大排列並分成四等份,處於第一個分割點位置的數值是下四分位數,處於第二個分割點位置(中間位置)的數值是中位數,處於第三個分割點位置的數值是上四分位數。
四分位數間距是上四分位數QU與下四分位數QL之差,其間包含了全部觀察值的一半。其值越大,說明數據的變異程度越大,反之說明變異程度越小。
下面以餐飲銷量數據進行統計量分析,演示代碼如下:
> # 讀入數據
> saledata
> sales
>
> # 統計量分析
> # 均值
> mean_
> # 中位數
> median_
> # 極差
> range_
> # 標準差
> std_
> # 變異係數
> variation_
> # 四分位數間距
> q1
> q3
> distance
> a
+ 1, byrow = T)
> colnames(a)
+ "1/4分位數", "3/4分位數", "四分位間距")
> print(a)
均值 中位數 極差 標準差 變異係數 1/4分位數 3/4分位數 四分位間距
[1,] 2755.215 2655.85 9084.44 751.0298 0.2725848 2451.975 3026.125 574.15
通過上面代碼的運行結果,我們已經得到了餐飲銷量數的統計量情況。
相關閱讀:
《 》
《 》
《 》
《 》
閱讀更多 數據分析和挖掘 的文章