看穿數據,看透事實——集中趨勢描述

看穿數據,看透事實——集中趨勢描述

如果覺得文章對你有幫助,歡迎關注、點贊、轉發、收藏。

零、初識數據

現如今生活處處有數據,而我們接觸到的數據可以分為連續型數據或者離散型數據。

連續型數據的取值範圍是一個區間,可以在該區間中連續取值,即連續型數值可以是區間中的任一值,並且一般有度量單位。而離散型數據取值範圍是有限個值或者一個數列構成的。

對數據集使用適合的描述指標,能夠幫助我們探究龐大、雜亂無序的數據背後隱藏的事實規律。描述數據集的三個維度是指數據的集中趨勢描述,數據的離散程度描述和數據的分佈形態描述 。


一、集中趨勢描述

1.算術平均數 Arithmetic Mean:所有數值的和除以數值的個數。用於描述一組數據在數量上的平均水平。

計算公式:

看穿數據,看透事實——集中趨勢描述


優缺點:算術平均數是能夠充分運用已有信息的代表性數值,每個數值大小的改變都會引起其變化。也因此容易受極值的影響,並且會掩蓋數據的差異性。

示例:最近更新了2018年度深圳在崗職工的月平均工資,達到了9309元。這就是一個算術平均值的實際應用。還是要保持進步,爭當排頭兵而非吊車尾呀。

2.幾何平均數 Geometric Mean:對各數值的連乘積開項數次方根。一般用於當總成果為各個階段(環節)的連乘積時,求各個階段(環節)的一般成果。

計算公式:

看穿數據,看透事實——集中趨勢描述


優缺點:幾何平均數受極端值的影響比均值小。但僅適用於具有等比或近似等比關係的數據。

示例:連續作業的車間求產品的平均次品率。一個產品的生產由三個環節組成。每個環節都會產生一定的次品。次品率依次為5%、2%、6%,求這個產品的平均次品率。

因為每個環節依次發生,需要完成上一個環節的合格品才能進入下一個環節,所以每個環節的次品率之間是乘積關係。

看穿數據,看透事實——集中趨勢描述

依照上式結果可知,該產品整個生產環節的平均次品率為3.91%。

3.中位數 Median:將數值從小到大依次排列,最中間的數值為中位數。若數值個數為奇數個時,為中間位置的數值;若數值個數為偶數個時,為中間兩個數的算術平均數。

優缺點:不受極端值影響,通過損失部分信息,來換取指標的穩定性 。但對極值缺乏敏感性,當樣本量小時,中位數不穩定。

示例:畢業生小於獲得了兩個offer,分別是A、B兩個公司。A公司該部門工資情況為甲400元,乙500元,丙600元,丁20000元,B公司該部門工資情況為戊1000元,己1500元,庚2000元,辛8000元。A、B公司平均月薪為5375元、2675元。此時算術平均數受極值影響已失去代表作用,A、B公司月薪中位數550元、1750元能代表更多的數據。

4.眾數 Mode:數據中出現次數最多的數值。如果有兩個或兩個以上的數值出現次數並列最多,那麼這些數值都是該數據集的眾數。如果所有數值出現的次數相同,這該數據集沒有眾數。

優缺點:可用於數值型數據,也可用於非數值型數據。數據量越多時越具有代表性,且不受極值影響。

示例:一家銷售鞋的商鋪,參照以往的消費數據,得出女鞋銷售尺碼的眾數為37碼,男鞋銷售尺碼的眾數為42碼,那麼在商鋪備貨的時候,女鞋37碼和男鞋42碼就需要安排更多的備貨。

5.截尾均數 Trimmed Mean :將數據進行排序後,按照一定比例去掉兩端的數據,只用中部的數據來求均數。若截尾均數與原均數相差不大,說明數據不存在極端值,或者兩端極端值的影響正好抵消;若截尾均數與原均數相差較大,則說明數據存在極端值,此時截尾均數可以更好的反應數據的集中趨勢。

優缺點:算術平均數較易受到極端值的影響,而截尾均數是其的一種改進,在一定程度上降低極端值給均數帶來的影響。

示例:某次藝術比賽10個評委給出評分如下:47、56、74、42、83、75、69、71、76、69。若去掉一個最高分83和一個最低分42,則平均分為:

看穿數據,看透事實——集中趨勢描述

數據集描述的第一個維度——集中趨勢描述,已經分享完了,之後將繼續分享其餘的兩個維度:離散趨勢描述和分佈形態描述,歡迎大家繼續關注!

本原創首發於公眾號:數據分析魚,歡迎圍觀!


分享到:


相關文章: