R語言數據特徵分析——分布分析

對數據進行質量分析以後,接下來可通過繪製圖表、計算某些特徵量等手段進行數據的特徵分析。首先講解分佈分析

分佈分析能揭示數據的分佈特徵和分佈類型。對於定量數據,我們想要了解其分佈形式是對稱的還是非對稱的、發現某些特大或特小的可疑值,可做出頻率分佈表、繪製頻率分佈直方圖、繪製莖葉圖進行直觀地分析;對於定性數據,可用餅形圖和條形圖直觀地顯示分佈情況。

定量數據的分佈分析

對於定量變量,選擇“組數”和“組寬”是做頻率分佈分析時最主要的問題,一般按照一下步驟:

求極差;

決定組距和組數;

決定分點;

列出頻率分佈表;

繪製頻率分佈直方圖;

遵循的主要原則有:

各組之間必須是相互排斥的;

各組必須將所有的數據包含在內;

各組的組寬最好相等;

下面結合具體數據運用分佈分析對定量數據進行特徵分析:

下表是描述菜品撈起生魚片在2014年第二個季度的銷售數據,繪製銷售量的頻率分佈表、頻率分佈圖,對該定量數據做出相應的分析。數據可在

https://github.com/windform/R/blob/master/R%E8%AF%AD%E8%A8%80%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F%E5%88%86%E6%9E%90/chapter3/data/catering_fish_congee.xls進行下載。

(1)求極差

極差=最大值-最小值=3960-45=3915(元)

(2)決定組距和組數

這裡根據業務數據的含義,可取組距為500,組數=極差/組距=3915/500=7.83

(3)決定分點

根據組數和組距,可確定以下的分佈區間:

(4)列出頻率分佈表

根據分組區間可製作出頻率分佈表。其中,第1列將數據所在的範圍分成若干組段,其中第一個組段要包括最小值,最後一個組段要包括最大值。習慣上將各組段設為左閉右開的半開區間,如第1個分組為[0,500)。第2列組中值是各組段的代表值,由本組段的上、下限相加除以2得到。第3列和第4列分別為頻數和頻率。第5列示累計頻率,是否需要計算該列視情況而定。

(5)繪製頻率直方圖

若以2014年第二季度撈起生魚片每天的銷售額為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,可繪製成以下頻率分佈直方圖:

定性數據的分佈分析

對於定性變量,常常根據變量的分類類型來分組,可以用餅形圖和條形圖來描述定性變量的分佈。

餅形圖的每一個扇形部分代表每一類型的百分比或頻數,根據定性變量的類型數目將餅形圖分成幾個部分,每一部分大大小與每一類型的頻數成正比;條形圖的高度代表每一類型的百分比或頻數,條形圖的寬度沒有意義。

餅形圖

條形圖