1.統計與挖掘
統計和挖掘最大的差別在於:統計是事先設想好的一個動作,然後去驗證它。
例如先假設銷售收入和銷售投入之間有關係,公司多投錢給推銷人員去拜訪客戶,就能獲得更多的用戶和訂單,銷售收入就能上升,然後我們用統計的模型去驗證它。
在分析這個數據之前,是沒有“假定”的,我們不知道最後做出來的結果是什麼樣的。這就是數據挖掘,從大量的數據中通過各種方法找出隱藏於其中的信息。
2.平均值
在數據量大的情況下,平均值反映的是一個數據“應該”是什麼。
如果說平均值反映了數據的“中軸線”,那麼標準差就反映了數據的波動情況,也就是說數據是波瀾不驚還是起伏不定。
3.標準差
如果說平均值反映了數據的“中軸線”,那麼標準差就反映了數據的波動情況,也就是說數據是波瀾不驚還是起伏不定。
4.正態分佈
正態分佈的規律:
1)兩邊基本是對稱的。
2)形狀像一個倒扣的“鍾”。
3)高峰在中間,越到中間,數據分佈的概率越大,越到兩邊,概率就越小。
這個看上去很簡單的正態分佈,其實就是統計分析的重要基礎,實際上很多統計規律都是建立在數據正態分佈的基礎上的。或者說,如果數據不是正態分佈的,那麼很多統計規律則是不成立的。
根據正態分佈的規律可以得到,絕大部分(95%)的數據,是分佈在居中的位置上的,只有很小概率的事件分佈在正態曲線兩側,這個就是假設檢驗中的單側和雙側,如圖所示。
5.峰度和偏度
峰度和偏度算是數據分析中比較專業的概念了,峰度反映的是數據中極值的情況,請看圖峰度的數據。
極值是-10的時候,KURT函數(返回一組數據的峰度係數(Kurtosis)。峰度係數反映與正態分佈相比某一分佈的相對尖銳度或平坦度。正峰度係數表示相對尖銳的分佈。負峰度係數表示相對平坦的分佈。)結果為21.86,下面觀察一下當極值範圍在-10和10之間時,KURT函數的取值結果,如圖所示。
當極值與原值的取值範圍比較接近的時候,峰值會接近於0,而極值與原值的範圍差距比較大時,峰度值會變大,但是無論是正極值還是負極值,峰度的最大值都是23左右。
偏度是衡量數據對稱性的一個重要指標,EXCEL中對應的函數是SKEW,它用於比較對象正態分佈曲線,如圖所示,這是一個左偏的數據圖。
數據明顯左偏,其偏度值為0.346,再來看看下圖,這是一個右偏的數據圖。
數據的偏度為-0.098,此時數據明顯右偏。因此根據偏度值判斷數據對稱性的規則如下:
❑ 數據服從正態分佈,偏度為0。
❑ 數據左偏,偏度>0。
❑ 數據右偏,偏度<0。
6.連續和離散
連續變量和離散變量是數據分析中經常碰到的概念,所謂連續變量就是一個區間裡可以任意變化的量。
離散變量內部也有區分,圖所示為離散型變量的分類。
7.因變量和自變量
因變量,一般指的是我們研究和關心的變量,自變量一般就是其發生變化後會引起其他變量變化的變量。
閱讀更多 小魚瑣事 的文章