數據分析中的統計學基礎知識

統計學在我們生活中其實運用面還挺廣的,比如社會調查的結果分析都會運用到統計學的知識。

我們今天就來分享一下統計學的一些基礎的知識。

大致而言,統計學由“描述統計”和“推論統計”兩部分構成。

描述統計就是從取得的數據中抽取其特徵的技術。

推論統計是將統計學與概率理論相結合。對“無法整體把握的大的對象”或“還未發生而未來會發生的事情”進行推測。

一、描述統計

1、平均值

平均值就是用數據的合計除以數據的個數

數據分析中的統計學基礎知識

平均數還可以通過以下公式求得

平均數=組值×相對頻數的合計

2 、方差

偏差=數據的數值-平均值

方差=[(偏差的平方)的合計]/(數據數)

公式:

數據分析中的統計學基礎知識

3、標準差

標準差=方差的均方根

數據分析中的統計學基礎知識

標準差反映組內個體間的離散程度(波動率)。

標準差的含義在統計學中很重要!

標準差越大,數據的離散程度越大,波動越大。

標準差是數據特殊性特殊性額的評價基準

±1倍標準差以內包含約70%數據

一組數據中某個數據的偏差在±1倍標準差左右,可以說這是“平常的數據”

±2倍標準差以外包含約5%的數據

如果在±2倍標準差以外,則可以說是“特殊的數據”

4、正態分佈

概率密度函數

連續型隨機變量的概率密度函數是一個描述這個隨機變量的輸出值在某個確定的取值點附近的可能性的函數。而隨機變量的取值落在某個區域之內的概率則為概率密度函數在這個區域上的積分。

正態分佈

若隨機變量X服從一個數學期望為μ、標準方差為σ2的高斯分佈,記為:

X∼N(μ,σ2),

則其概率密度函數為

數據分析中的統計學基礎知識

正態分佈的期望值μ決定了其位置,其標準差σ決定了分佈的幅度。因其曲線呈鐘形,因此人們又常常稱之為鐘形曲線。我們通常所說的標準正態分佈是μ = 0,σ = 1的正態分佈。

數據分析中的統計學基礎知識

正態分佈的特性:

1)正態分佈的95%命中區間是(μ-1.96σ,μ+1.96σ)

2)變量X服從平均值為μ,標準差為σ,可以利用公式將其變換為標準正態分佈

Z=(X-μ)/ σ

3)變量X服從平均值為μ,標準差為σ的正態分佈時,95%的預測命中區間為解不等式

-1.96≤(X-μ)/ σ≤+1.96 所得的範圍

5、假設檢驗

母群體服從正態分佈時,可以通過假設總體參數,來檢驗觀測值是否落在95%的命中區間內。通過以下公式可以計算基於假設的總體參數的觀測值的範圍

-1.96≤(X-μ)/ σ≤+1.96

如果觀測值在這個範圍內,接受假設,假設成立;如果不在這個範圍內,假設被捨棄。

6、區間估計

區間估計針對母群體的總體參數,在假定總體參數的情況下,只集合列現實觀測到的數據在觀測數據的“95%預測命中區間”的總體參數。根據區間估計缺點的總體參數的範圍叫做“95%置信區間”

95%置信區間是這樣一種區間:它由各種各樣的觀測值用相同的方法進行區間估計,其中95%包含正確的總體參數。

二、推論統計

正態分佈母群體

正態分佈母群體的總體均值為μ,總體標準差為σ時,n個觀測數據x的樣本均值x的分佈仍為正態分佈,且樣本均值x的期望仍為μ,但標準差為σ/√n(標準誤差)

  1. 已知總體方差,估計正態母群體的總體均值

正態母群體中已知總體標準差為σ時,可以從n個樣本估計整體均值μ

保留滿足:

-1.96≤(x -μ)/(σ/√n)≤1.96,求得μ的95%置信區間

2、已知總體均值,估計正態母群體的總體方差

1)由n個觀測值計算V

數據分析中的統計學基礎知識

2)從卡方分佈臨界表中求得自由度為n的卡方分佈的95%預測命中區間

數據分析中的統計學基礎知識

卡方分佈臨界值表的行索引為自由度,列索引為概率

值的含義可以理解為自由度為行索引時,大於該值的數據的概率為列索引

例如:對於自由度為5的卡方分佈V來說,V的值有95%在“0.8312≤V≤12.8325”中。

3)解不等式求出σ²的95%置信區間。

3、未知總體均值,估計正態母群體的總體方差

步驟:

1)計算樣本均值x,根據樣本均值計算樣本方差s²

s²=[(x1-x)²+(x2-x)²+…(xn-x)²]/n

2)計算統計量W

數據分析中的統計學基礎知識

3)確認的自由度為n-1的W的95%預測命中區間(a≤W≤b)

4)求出σ²的95%置信區間

4、未知總體方差,估計正態母群體的總體均值

步驟:

1)計算樣本均值x和樣本標準差s

2)計算服從自由度n-1的t分佈統計量T

數據分析中的統計學基礎知識

3)根據t分佈表查出自由度n-1的T的95%預測命中區間(-α≤T≤α)

數據分析中的統計學基礎知識

例如自由度為10,T的95%命中區間的臨界值為2.228,有-2.28≤T≤2.28

4)計算x–的95%置信區間

這四點是統計學中比較常用的基礎知識,有比較大的收穫嗎?有想了解的可以留言哦!


分享到:


相關文章: