數據分析基本概念

1.統計與挖掘

統計和挖掘最大的差別在於:統計是事先設想好的一個動作,然後去驗證它。

例如先假設銷售收入和銷售投入之間有關係,公司多投錢給推銷人員去拜訪客戶,就能獲得更多的用戶和訂單,銷售收入就能上升,然後我們用統計的模型去驗證它。

在分析這個數據之前,是沒有“假定”的,我們不知道最後做出來的結果是什麼樣的。這就是數據挖掘,從大量的數據中通過各種方法找出隱藏於其中的信息。

2.平均值

在數據量大的情況下,平均值反映的是一個數據“應該”是什麼。

如果說平均值反映了數據的“中軸線”,那麼標準差就反映了數據的波動情況,也就是說數據是波瀾不驚還是起伏不定。

3.標準差

如果說平均值反映了數據的“中軸線”,那麼標準差就反映了數據的波動情況,也就是說數據是波瀾不驚還是起伏不定。

4.正態分佈

數據分析基本概念

正態分佈的規律:

1)兩邊基本是對稱的。

2)形狀像一個倒扣的“鍾”。

3)高峰在中間,越到中間,數據分佈的概率越大,越到兩邊,概率就越小。

這個看上去很簡單的正態分佈,其實就是統計分析的重要基礎,實際上很多統計規律都是建立在數據正態分佈的基礎上的。或者說,如果數據不是正態分佈的,那麼很多統計規律則是不成立的。

根據正態分佈的規律可以得到,絕大部分(95%)的數據,是分佈在居中的位置上的,只有很小概率的事件分佈在正態曲線兩側,這個就是假設檢驗中的單側和雙側,如圖所示。

數據分析基本概念

5.峰度和偏度

峰度和偏度算是數據分析中比較專業的概念了,峰度反映的是數據中極值的情況,請看圖峰度的數據。

數據分析基本概念

極值是-10的時候,KURT函數(返回一組數據的峰度係數(Kurtosis)。峰度係數反映與正態分佈相比某一分佈的相對尖銳度或平坦度。正峰度係數表示相對尖銳的分佈。負峰度係數表示相對平坦的分佈。)結果為21.86,下面觀察一下當極值範圍在-10和10之間時,KURT函數的取值結果,如圖所示。

數據分析基本概念

當極值與原值的取值範圍比較接近的時候,峰值會接近於0,而極值與原值的範圍差距比較大時,峰度值會變大,但是無論是正極值還是負極值,峰度的最大值都是23左右。

偏度是衡量數據對稱性的一個重要指標,EXCEL中對應的函數是SKEW,它用於比較對象正態分佈曲線,如圖所示,這是一個左偏的數據圖。

數據分析基本概念

數據明顯左偏,其偏度值為0.346,再來看看下圖,這是一個右偏的數據圖。

數據分析基本概念

數據的偏度為-0.098,此時數據明顯右偏。因此根據偏度值判斷數據對稱性的規則如下:

❑ 數據服從正態分佈,偏度為0。

❑ 數據左偏,偏度>0。

❑ 數據右偏,偏度<0。

6.連續和離散

連續變量和離散變量是數據分析中經常碰到的概念,所謂連續變量就是一個區間裡可以任意變化的量。

離散變量內部也有區分,圖所示為離散型變量的分類。

數據分析基本概念

7.因變量和自變量

因變量,一般指的是我們研究和關心的變量,自變量一般就是其發生變化後會引起其他變量變化的變量。


分享到:


相關文章: