假設檢驗之t檢驗

假設檢驗(Hypothesis Testing)是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。

假設檢驗的基本原理

舉個通俗的例子:你隨手扔一個硬幣,連仍10次,發現都是正面,這個時候我們開始懷疑這個硬幣是不是有問題?

我們做一個假設H:這個硬幣沒有問題

那麼每次出現正面的概率為0.5,10次都是正面的概率P=0.0009765<0.001,這是一個很小的概率,在一次實驗中幾乎不會出現,而現在出現了,只能說明原假設H不對,我們就應該拒絕這個原假設,認為這個硬幣有問題。

又或者,你找工作的時候某一項技能填的是精通,人事滿心歡喜的把你叫來面試,結果筆試題都做的一塌糊塗,那麼此時面試官心理該怎麼想?

我們做一個假設,你來之前,人事根據你簡歷所寫 有一個初始判斷H:你的技能沒問題

但是筆試的十幾個題都做的一塌糊塗,在你技能OK的前提下不應該出現這樣的筆試結果啊,所以面試官就根據筆試斷定你的簡歷上寫的技能有誤,你的技能並沒有那麼溜,這臉打的啪啪啪的。

當然你也可能說我這是發揮失常啊,但是比起你發揮失常,你的技能更值得懷疑。

假設檢驗的基本思想是小概率事件反證法。

但是又有問題了,如果說拋10次有9次或者8次正面,又該怎麼判斷呢,判斷正確的概率有多少呢?費希爾據此提出一套可行的方法,形成了假設檢驗理論。常用的主要假設檢驗方法有t檢驗法、χ2檢驗法(卡方檢驗)、F-檢驗法

P值到底是什麼?

P值方法是廣泛使用的統計手段,做假設檢驗最常見的就是這個P值了,如果P值小於0.05則歡呼雀躍,大於0.05灰回頭喪氣,那麼P值到底是什麼能有這麼大的魔力?

利用樣本觀測值能夠做出拒絕原假設的最小顯著性水平就是P值。

簡單來說,就是上個例子中10次出現正面的概率就是P值!

P值就是原假設為真的概率?

當然不是,P值既不是原假設為真的概率也不是備則假設為假的概率,而是拒絕原假設的概率

P值都是用來拒絕原假設的,從來沒有被證明可以用來接受某個假設。

通常假設檢驗中,小於0.05就是小概率事件。至於0.05是怎麼定出來的,也沒有什麼高深的,英國著名的統計學家Ronald Fisher把1/20作為小概率標準,也就是0.05,從此0.05或者比0.05小就叫做小概率事件。Fisher沒有任何高深的理由解釋他為什麼選擇0.05,只是說他忽然想起來的。

看吧,看似複雜的統計學也有它好玩的地方。

第一類錯誤和第二類錯誤

我們通過某個網站上的一個略黃略暴力的故事來闡述一下

話說N年過去了,某位性別不明的地球統治者決定要消滅地球上的男人們。但是怎樣找到地球上所有的男人並把他們都消滅呢?這位統治者開發出了一種自動判別武器——如果胸小於A罩杯,則殺無赦;如果等於或大於A罩杯,則放過。

絕大部分的男人都不帶走一片雲彩地離開了這個世界,而絕大部分女人都還在愉快地生活著,然而有些可憐的妹子因為胸太小被誤殺,有些胸肌發達的男人卻因為胸很大而活了下來。

在這裡,武器的判別程序犯了兩種錯誤:

  1. 把一小部分小胸女人當成了男人,也就是在原假設其實為真時錯誤地拒絕了它,這在統計學中被稱為第一類錯誤,也就是拒真;
  2. 把一小撮大胸男人當成了女人,也就是在原假設其實為假時錯誤地接受了它,這在統計學中被稱為第二類錯誤,也就是取偽。

通常用一對希臘字母⍺和β來代表犯第一類和第二類錯誤的概率。在這個故事裡,⍺就是被錯殺的女人在所有女人中的比例,而β則是被放過的男人在所有男人中的比例。

顯然,這樣的結果不是很令人滿意,要是兩種錯誤都少犯不就好了?就不能兩種錯誤都少犯些嗎!

還真不能!在樣本給定的情況下⍺和β中一個減小必然會導致另一個增大,這不是偶然的,而是一般性 ,

就是說我們不能找到一個同時是⍺和β都小的檢驗。

既然我們不能同時控制⍺和β,只能採取折中的辦法,通常的做法是僅限制犯第一類錯誤的概率,這就是費希爾的顯著性檢驗!但是也不能讓⍺太小,過小則會導致β過大,適當控制⍺來制約β。最常的選擇是⍺=0.05

怎麼樣確定原假設?

可能又有人問了,例子中你為什麼要把這個硬幣沒問題作為原假設?為什麼不把硬幣有問題作為原假設?

如果你把硬幣有問題作為原假設,正反面出現的概率該如何判定?不好判定!

所以在假設檢驗中一般將不會被輕易否定的假設作為原假設。

正如硬幣沒問題一般不容易輕易被否定,畢竟遇到的假幣的幾率還是很小的!

為什麼需要數據符合正態分佈?

常見的t檢驗法、χ2檢驗法(卡方檢驗)、F-檢驗法的統計量主要來自於三大分佈,F分佈,t分佈,卡方分佈,而這三大分佈都是脫胎於正態分佈的。

T檢驗

T檢驗亦稱學生檢驗主要用於樣本含量較小(例如n<30),總體樣本σ未知的正態分佈。

t檢驗是用t分佈理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著,就是對兩樣本均值差別的顯著性進行檢驗。

單樣本T檢驗

單總體t檢驗是檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著。

當總體分佈是正態分佈,如總體標準差未知且樣本容量小於30,那麼樣本平均數與總體平均數的離差統計量呈t分佈。

設x1, x2, …,xn,是來自N(μ,σ2)的樣本,由於σ未知,使用樣本標準差代替σ形成t檢驗統計量

假設檢驗之t檢驗

其中,s是樣本標準差

一個例子:某工廠生產的某一種鋁材的長度服從正態分佈,其均值設定為240cm,現在抽取五件產品,測得其長度(單位:cm)239.7,239.6,239,240,239.2,以此判斷該廠此種鋁材的長度是否滿足設定的要求。

檢驗假設H0:μ=240 VS H1: μ≠240

使用Python 進行T檢驗

假設檢驗之t檢驗

檢驗結果P<0.05,則拒絕原假設,可以斷定這種鋁材長度不符合要求

成對樣本的t檢驗

如果我們要對兩個總體平均值進行比較時,有時候樣本數據可能是成對出現的,這時候就要成對樣本的t檢驗,注意:兩個樣本中的每個數據都是對應的。其實我們可以把對應詳見,就可以得到對應的樣本差,就變成了一個樣本,此時的原檢驗就變成了樣本差的平均值是否等於零的單樣本t檢驗了。先對兩個成對樣本進行 t 檢驗,再計算出變化量進行單樣本t檢驗,得到的結果將是完全一樣的。

成對樣本的 t 檢驗最常見於同一組實驗對象兩個時間點(比如說干預前後)之間的比較。

除此以外,還有一種情形,就是兩組實驗對象雖然是不同的個體,但是存在其它的一些關聯,使得兩組中的個體能夠一一對應起來。比如改進生產工藝生產出來的樣品和以前的樣品的參數比較等等,我們有了成對的樣本,因此也可以使用成對樣本的t檢驗。

例如:為了比較兩種穀物種子的優劣,選取10塊圖紙不同的土地,並將每塊土地分成相同的兩部分,分別種下這兩種種子,施肥和管理相同得到產量數據如下:

假設檢驗之t檢驗

假設產量服從正態分佈,問兩種種子的平均產量在顯著性水平α=0.05上有沒有顯著差異?

Excel成對樣本t檢驗結果,μ表示產量

假設:H0:μ1=μ2 VS H1:μ1≠μ2

假設檢驗之t檢驗

雙尾P<0.05,拒絕原假設,則兩個種子平均產量有顯著差異,種子2要比種子1的單位產量要高

在正態分佈下,差距d=μ1-μ2也符合正態分佈,則可以轉化為考察d是否為零的單樣本T檢驗,假設:H0:d=0 VS H1:d≠0

Python進行單樣本T檢驗

假設檢驗之t檢驗

結果和Excel做的成對樣本T檢驗的雙尾P值一樣

獨立樣本t檢驗

由於我們是在比較兩個樣本,而這兩個樣本可能來源於兩個不同的分佈,因此在確定 t 統計量的時候,我們需要考慮兩個樣本所來自的分佈是否有相同的方差,進而對 t 統計量以及有效的樣本量(稱為「自由度」)進行不同的處理或修正。

因此,在我們使用獨立樣本的 t 檢驗之前,需要先進行另外一個檢驗即檢驗兩個樣本的方差是否有顯著性差異 ,這是選擇何種T檢驗(等方差雙樣本檢驗,異方差雙樣本檢驗)的前提條件。

對於兩個樣本的方差是否相等,一個常用的檢驗是Levene 氏檢驗 (Levene's test)。這個檢驗的原假設是兩個分佈方差相等。與所有其它檢驗一樣,它會給我們一個 p 值。當 p 值大於 0.05 時,我們就不能拒絕原假設,即認為兩分佈方差相等;反之則認為兩分佈方差不相等。

在不少統計學軟件中,Levene 氏檢驗已經默認稱為獨立樣本 t 檢驗的一個步驟。例如在 SPSS 裡,當我們使用獨立樣本 t 檢驗時,它會自動給出 Levene 氏檢驗的結果,並同時輸出方差相等和不相等的結果,我們只需根據 Levene 氏檢驗讀取合適的部分即可。

如果使用spss做T檢驗,spss提供了方差相等或者不相等兩種分析結果可供選擇

等方差雙樣本T檢驗

一個例子:一個工廠鑄造車間為了提高鑄件的耐磨性而試製了一種鎳合金鑄件用來取代銅合金鑄件,為此,從兩種鑄件中各抽取一個容量分別為8和9的樣本,測試其硬度(耐磨指標)數據如下:

假設檢驗之t檢驗

根據專業經驗,硬度服從正態分佈,且方差保持不變,試問在顯著性水平α=0.05下判斷鎳合金的硬度是否明顯有提高?

檢驗假設:H0:μ1=μ2 VS H1:μ1> μ2

使用Excel進行雙樣本T檢驗

假設檢驗之t檢驗

使用Python 進行雙樣本T檢驗

假設檢驗之t檢驗

關於單側檢驗和雙側檢驗

Python中的scipy.stats模塊提供的test_1samp, ttest_ind, ttest_rel方法均進行雙側檢驗 ,

在Excel中雙尾檢驗就是雙側檢驗,單尾就是單側檢驗

單尾檢驗和雙尾檢驗的區別在於他們拒絕H0的標準。單尾檢驗允許你在差異相對較小時拒絕H0,這個差異被規定了方向。另一方面,雙尾檢驗需要相對較大的差異,這個差異不依賴於方向。

簡單就是說備擇假設中是單方向的(只有小於或大於),我們把這種情況稱為單側檢驗,備擇假設中是雙方向的(不如不等於,則有可能大於或小於),我們把這種情況稱為單側檢驗

由於 t 分佈是對稱的,因此對於同樣的樣本而言,雙側檢驗對應的 p 值將會是單側檢驗的兩倍。

所有的研究者都同意單尾檢驗與雙尾檢驗不同。一些研究者認為,雙尾檢驗更為嚴格,比單尾檢驗更令人信服。因為雙尾檢驗要求更多的證據來拒絕H0,因此提供了更強的證據說明處理存在效應。另一些研究者傾向於使用單尾檢驗,因為它更為敏感,即在單尾檢驗中相對較小的處理效應也可能是顯著的,但是,它可能不能達到雙尾檢驗的顯著性要求。那麼我們是應該使用單尾檢驗還是雙尾檢驗?通常,雙尾檢驗被用於沒有強烈方向性期望的實驗研究中,或是存在兩個可競爭的預測時。例如,當一種理論預測分數增加,而另一種理論預測分數減少時,應當使用雙尾檢驗。應當使用單尾檢驗的情況包括在進行實驗前已經有方向性預測,或強烈需要做出方向性預測時。

T分佈發現的趣事

t檢驗是哥塞特為了觀測釀酒質量而發明的。由於哥塞特接觸的樣本都甚少,甚至才幾個,通過大量實驗數據積累,哥塞特發現t=√N(X-µ)/s(X來自正態分佈的樣本,µ均值,s樣本標準差)分佈與傳統的標準正態分佈N(0,1)並不相同,尤其是尾部概率相差比較大。於是他道皮爾遜那裡學了一年的統計學,著重研究少量數據的統計分析問題,最終發表了這個讓他名垂史冊的發現。

很多人可能會和我一樣,好奇為什麼t分佈也叫學生t分佈。實際上,學生是發現這個分佈的數學家哥塞特(Gosset)的筆名,他於1908年在一個叫Biometrika的雜誌上,發表了關於t分佈的文章,當時就是用的這個筆名。為什麼發文章要用筆名呢?(公司不允許員工公開發表研究成果),於是戈塞特才被迫用筆名發表了文章。t分佈的發現在統計學史上具有劃時代的意義,打破了正態分佈一統天下的局面,開創了小樣本統計推斷的新紀元。後來費希爾在1922年給出了t分佈的完整證明,並編制了t分佈的分位表。

感受一下t分佈:

假設檢驗之t檢驗


分享到:


相關文章: