統計學常犯的18個錯誤,請務必跳過這些坑

本文總結統計學中經常犯的錯誤,知道這些常識,可以在與別人”嘴炮“時更具專業性。


統計學常犯的18個錯誤,請務必跳過這些坑


1. 變量之間關係可以分為兩類:


函數關係:反映了事務之間某種確定性關係。

相關關係:兩個變量之間存在某種依存關係,但二者並不是一一對應的;反映了事務間不完全確定關係;


2. 為什麼要對相關係數進行顯著性檢驗?


  • 實際上完全沒有關係的變量,在利用樣本數據進行計算時也可能得到一個較大的相關係數值(尤其是時間序列數值)。
  • 當樣本數較少,相關係數就很大。當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;


改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。相關係數高是線性模型擬合程度高的前提;此外相關係數反映兩個變量之間的相關性,多個變量之間的相關性可以通過複相關係數來衡量;


3. 增加變量個數,R2會增大;P值,F值只要滿足條件即可,不必追求其值過小;


4. 多重共線性與統計假設檢驗傻傻分不清?


多重共線性與統計假設沒有直接關聯,但是對於解釋多元迴歸的結果非常重要。相關係數反應兩個變量之間的相關性;迴歸係數是假設其他變量不變,自變量變化一個單位,對因變量的影響,而存在多重共線性(變量之間相關係數很大),就會導致解釋困難;比如y~x1+x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。


一元迴歸不存在多重共線性的問題;而多元線性迴歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關係數分析,初步判定是否滿足前提---多重共線性。


5. 時間序列數據會自發呈現完全共線性問題,所以我們用自迴歸分析方法;


6. 什麼樣的模型才是一個好模型?


在測試集表現與預測集相當,說明模型沒有過度擬合:在訓練集上表現完美,在測試集上一塌糊塗;原因:模型過於剛性:“極盡歷史規律,考慮隨機誤差”;擬合精度不能作為衡量模型方法的標準;


一個好的模型:只描述規律性的東西(抓住事務的主要特徵),存在隨機誤差是好事,在預測時,就有了“容錯空間”,預測誤差可能減小!


7. 假設檢驗顯著性水平的兩種理解:


  • 顯著性水平:通過小概率準則來理解,在假設檢驗時先確定一個小概率標準----顯著性水平;用 表示;凡出現概率小於顯著性水平的事件稱小概率事件;
  • 通過兩類錯誤理解: 為拒絕域面積


統計學常犯的18個錯誤,請務必跳過這些坑

統計學常犯的18個錯誤,請務必跳過這些坑


8. 中心極限定律與大數定理:


大數定理---正態分佈的“左磅”,隨著樣本數的增加,樣本的平均值可以估計總體平均值;


中心極限定理---正態分佈的“右臂”具有穩定性,大數定理說明大量重複實驗的平均結果具有穩定解決了變量均值的收斂性問題中心極限定理說明隨機變量之和逐漸服從某一分佈,解決了分佈收斂性問題。


9. 方差


方差能最大程度的反映原始數據信息;


統計學常犯的18個錯誤,請務必跳過這些坑

反映了一組數據相對於平均數的波動程度,相比於

,其平方項更放大了波動,且差的平方在數學公式推導上有大用。


10. 使用最小二乘法條件:


  • 自變量之間不能存在完全共線性;
  • 總體方程誤差項服從均值為0的正態分佈(大數定理);
  • 誤差項的方差不受自變量影響且為固定值;(同方差性)


11. 最大似然估計與最小二乘法區別


  • 最小二乘法是基於幾何意義上距離最小;
  • 最大似然估計是基於概率意義上出現的概率最大;
  • 最小二乘法:對數據分佈無要求;
  • 最大似然估計:需要知道概率密度函數。


12. 關於H0與H1


H0:原假設,零假設----零是相關係數為0,說明兩個變量無關係。

H1:備用假設。


如何設置原假設:


1.H0與H1是完備事件組,相互對立,有且只有一個成立。
2.在確立假設時,先確定備設H1,然後再確定H0,且保證“=”總在H0上。
3.原H0一般是需要反駁的,而H1是需要支持的。
4.假設檢驗只提供原假設不利證據。


即使“假設”設置嚴密,檢驗方法“精確”;假設檢驗始終是建立在一定概率基礎上的,所以我們常會犯兩類錯誤;


第一類:原H0是真,卻拒絕原假設;犯 a類錯誤。

第二類:原H0是假,卻不拒絕原假設;犯 B 類錯誤。

通常只能犯兩種錯誤中的一種,且 a 增加, B 減少。

通常, a類錯誤是可控的,先設法降低第一類錯誤概率 a。


13. 什麼是雙尾檢驗,單尾檢驗?


1. 當H0採用等號,而H1採用不等號,雙尾檢驗。

2.當H0是有方向性的,單尾檢驗。


14. P值


  • 當原假設為真時,比所得到的樣本觀察,結果更極端的結果會出現的概率。
  • 如果P值很小,我們拒絕原假設的理由越充分。
  • P的意義不表示兩組差別大小,p反映兩組差別有無統計學意義。
  • 顯著性檢驗只是統計結論,判斷差別還需要專業知識;


15. T檢驗與U檢驗


  • 當樣本容量n夠大,樣本觀察值符合正態分佈,可採用U檢驗;
  • 當樣本容量n較小,若觀測值符合正態分佈,可採用T型檢驗。


16. 方差分析


主要用於兩樣本及以上樣本間的比較,又被稱為F檢驗,變異數分析;


基本思想:通過分析研究不同來源的變異對總體變異的貢獻大小,從而確定可控因素對研究結果影響力的大小;


總變異可以被分解為組間變異與組內變異。


  • 組間變異:由於不同實驗處理而造成的各組之間的變異。
  • 組內變異:組內各被適變量的差異範圍所呈現的變異。


統計學常犯的18個錯誤,請務必跳過這些坑


17. 直方圖:對數據進行整體描述,突出細節


箱線圖:對數據進行概要描述,或對不同樣本進行比較。箱線圖可以讓我們迅速瞭解數據的彙集情況(這個樣本,緊密的集合在一起;哇,這個樣本不那麼密集;這個樣本,大部分向左偏,哇,這個樣本大部分向右偏。)


但是請注意:一個直方圖比1000個p值更重要,拿到數據先繪製散點圖、直方圖、箱線圖看看,再決定用什麼描述!


18. 霜線圖


對於分位數的理解:霜線圖看數據分佈特徵統計學中,把所有數值由小到大排列並分成四等份,處於三個分割點位置的得分就是四分位數。所以,四分位數有三個!四指四等份!


  • 第一四分位數:下四分位數;等於該樣本中所有數值由小到大排列後第25%的數字(所以下四分位數可以不是樣本中的數值,它是一個統計指標(就像平均數一樣,不一定是原數據中的一點)。
  • 第二四分位數:中位數;
  • 第三四分位數:上四分位數。


其中,下四分位數與上四分位數的距離叫四分位距!(IQR)

統計學常犯的18個錯誤,請務必跳過這些坑


一元迴歸不存在多重共線性的問題;而多元線性迴歸要摒棄多重共線性的影響;所以要先對所有的變量進行相關係數分析,初步判定是否滿足前提---多重共線性。



分享到:


相關文章: