對數據進行質量分析以後,接下來可通過繪製圖表、計算某些特徵量等手段進行數據的特徵分析。首先講解分佈分析
分佈分析能揭示數據的分佈特徵和分佈類型。對於定量數據,我們想要了解其分佈形式是對稱的還是非對稱的、發現某些特大或特小的可疑值,可做出頻率分佈表、繪製頻率分佈直方圖、繪製莖葉圖進行直觀地分析;對於定性數據,可用餅形圖和條形圖直觀地顯示分佈情況。
定量數據的分佈分析
對於定量變量,選擇“組數”和“組寬”是做頻率分佈分析時最主要的問題,一般按照一下步驟:
求極差;
決定組距和組數;
決定分點;
列出頻率分佈表;
繪製頻率分佈直方圖;
遵循的主要原則有:
各組之間必須是相互排斥的;
各組必須將所有的數據包含在內;
各組的組寬最好相等;
下面結合具體數據運用分佈分析對定量數據進行特徵分析:
下表是描述菜品撈起生魚片在2014年第二個季度的銷售數據,繪製銷售量的頻率分佈表、頻率分佈圖,對該定量數據做出相應的分析。數據可在
https://github.com/windform/R/blob/master/R%E8%AF%AD%E8%A8%80%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F%E5%88%86%E6%9E%90/chapter3/data/catering_fish_congee.xls進行下載。
(1)求極差
極差=最大值-最小值=3960-45=3915(元)
(2)決定組距和組數
這裡根據業務數據的含義,可取組距為500,組數=極差/組距=3915/500=7.83
(3)決定分點
根據組數和組距,可確定以下的分佈區間:
(4)列出頻率分佈表
根據分組區間可製作出頻率分佈表。其中,第1列將數據所在的範圍分成若干組段,其中第一個組段要包括最小值,最後一個組段要包括最大值。習慣上將各組段設為左閉右開的半開區間,如第1個分組為[0,500)。第2列組中值是各組段的代表值,由本組段的上、下限相加除以2得到。第3列和第4列分別為頻數和頻率。第5列示累計頻率,是否需要計算該列視情況而定。
(5)繪製頻率直方圖
若以2014年第二季度撈起生魚片每天的銷售額為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,可繪製成以下頻率分佈直方圖:
定性數據的分佈分析
對於定性變量,常常根據變量的分類類型來分組,可以用餅形圖和條形圖來描述定性變量的分佈。
餅形圖的每一個扇形部分代表每一類型的百分比或頻數,根據定性變量的類型數目將餅形圖分成幾個部分,每一部分大大小與每一類型的頻數成正比;條形圖的高度代表每一類型的百分比或頻數,條形圖的寬度沒有意義。
餅形圖
條形圖