R語言實現基本統計分析之t檢驗

R語言實現基本統計分析之t檢驗

歡迎關注天善智能,我們是專注於商業智能BI,人工智能AI,大數據分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!

對商業智能BI、大數據分析挖掘、機器學習,python,R等數據領域感興趣的同學加微信:tstoutiao,邀請你進入數據愛好者交流群,數據愛好者們都在這兒。

作者:曹毛毛 R語言中文社區專欄作者 北京協和醫學院在讀碩士

前言

在本章開始之前請思考幾個問題,年齡、體重、性別在統計學中屬於同一種數據形式嗎?如果不是則分別是哪種?搞清楚數據類型是數據分析的第一步,當然在此之前你已經有了一份已經清洗乾淨的數據庫。

在統計領域內數據可簡單以下幾類:

  • 計量資料
  • 計數資料
  • 等級資料

根據研究目的還可以將資料進行計量——等級——計數資料轉化。不過要記住不能相互轉化,只能由高級像低級轉化,其實很好理解,因為計數資料信息量較少,轉化能力自然較弱。

以人群身高為例,按照某個標準規定160以下為較矮,高於160則為高,這樣可以將身高計量資料轉化為計數資料高矮。

下面簡單的回答一下章節開頭的小問題:

年齡和體重如29歲,80kg是可以由一些測量工具準確得到的值,因此為計量資料。

性別不可以用工具測量其值,它是一種類別,反映事物的某種屬性,因此是分類資料也可稱為計數資料。

在調查公司員工對經理的滿意程度,分為非常滿意、滿意、一般、不滿意四類,這樣收集到的數據則是反應某種等級,稱為等級資料。相信你也不敢說不滿意~

R語言實現基本統計分析之t檢驗

瞭解基本數據類型後,趕緊開啟你的統計之旅吧~本章僅涉及計量資料統計方法應用:

t檢驗用於判斷兩個總體均值是否具有差異,來源於正態分佈

t檢驗的應用條件是:樣本含量較小且滿足正態、方差齊

單樣本t檢驗:用於樣本均數和已知總體均數之間的比較

例1. 研究表明,漢族足月正常生產男嬰雙頂徑均數為9.3cm,某醫生記錄某山區12名漢族足月正常生產男嬰雙頂徑資料如下:9.95 9.33 9.49 9.00 10.09 9.15 9.52 9.33 9.16 9.37 9.11 9.27(數據來源於醫學統計學第二版,劉桂芬主編)

試問該山區男嬰的雙頂徑是否大於一般男嬰雙頂徑?

解決的問題:該山區男嬰的雙頂徑是否大於一般男嬰雙頂徑,換句話說即判斷該山區男孩是否和已知總體是同一總體。

基本概念

先來理解一下基本概念

12名男嬰是該山區的一個有代表性的小樣本,一個山區不可能只有12名足月正常生產的男嬰,當然如果對該山區的所有男嬰進行測量,任務量未免過重。實際應用中不可能把總體全部均進行檢測。這種從總體(該山區所有足月正常生產男嬰)中抽取一部分(12名足月正常生產男嬰)具有代表性的集合叫做樣本,而這個蒐集樣本的過程叫做抽樣。理解了樣本與總體的區別,再來體會一下假設檢驗的概念。依託於小概率反證法的思想,對總體的統計學特徵做出兩種對立的假設以此題為例,假設:該山區男嬰和已知總體是同一個總體,據此計算出樣本的某個統計量的概率,若這個概率特別小,小到這件事情不可能發生,則拒絕原假設。若這個概率較大,說明發生的可能性還是很大的,則沒有足夠把握拒絕原假設,該山區男孩和已知總體可能就是來自於同一個總體。

無效假設(nullhypothesis)H0:該山區男嬰雙頂徑和一般男嬰雙頂徑沒有區別

備擇假設(alternativehypothesis)H1:該山區男嬰雙頂徑大於一般男嬰雙頂徑

均數,標準差,t值

均數反應一組符合正態分佈或者近似正態分佈資料的平均水平

標準差:反應一組符合正態分佈或者近似正態分佈資料的離散趨勢,即變異程度

例如體重,一般人群體重在50kg左右,而有的人過重達到70kg,而有的人過輕40kg,距離平均值越遠,離散值就越大,標準差越大

用R實現以上手工過程~~畢竟足夠大的樣本量會讓你計算到懷疑人生

代碼實現

T檢驗的第一種變身:

#構建數據集合mydata

結果得:

R語言實現基本統計分析之t檢驗

#單樣本t檢驗t.test(mydata, alternative = "greater", mu = 9.3

結果得:

R語言實現基本統計分析之t檢驗

結果顯示t=1.0257p=0.1635>0.05 說明在此假設的基礎上還是很有可能發生此事情,因此不能拒絕原假設,還不能認為該山區正常產男嬰雙頂徑大於一般男孩雙頂徑

T檢驗的第二種變身:配對t檢驗

適用於配對資料的計量資料

主要有三種應用情形:

  1. 同質受試對象分別接受兩種不同的處理
  2. 同一受試對象分別接受兩種不同的處理
  3. 同一受試對象自身前後比對

著重理解配對的含義同一個受試者接受兩種不同的處理。無論哪種配對情形,均有共同點,就像一根樹枝在同一點分叉,再比較兩個小岔之間的區別,實在想像不出分叉的樹枝可以低頭看看自己分叉的髮尾~

判斷簡便法和常規法測定膽鹼酯酶活性有無統計意義,對8人同時用兩種方法進行測定,所得結果如下表所示,試分析簡便法測量膽鹼酯酶活性是否優於常規法。

#構造數據集合c1

結果得:

R語言實現基本統計分析之t檢驗

第三種變形:完全隨機兩樣本比較t檢驗

推論兩樣本均數所代表的兩總體均數是否相等,其設計原理是將受試對象完全隨機分為兩組,分別接受兩種不同的處理

分為兩種情況:

1.方差齊

試比較南北身高是否有差異

c1

結果得:

R語言實現基本統計分析之t檢驗

t.test(high,low,paired = FALSE)

結果得:

R語言實現基本統計分析之t檢驗

2.方差不齊

(這個情況大家可以自己舉例,用代碼探索如何實現,歡迎你將自己的成果分享在評論區

總結:

相信到這裡,t檢驗你已經可以應用自如啦,其實三種t檢驗的變形之間是互通的,均是以樣本的均數和總體的均數做比較,總體均數可以是一個已知的某個值也可以是0。

R語言實現基本統計分析之t檢驗

R語言實現基本統計分析之t檢驗

回覆 爬蟲 爬蟲三大案例實戰

回覆 Python 1小時破冰入門

回覆 數據挖掘 R語言入門及數據挖掘

回覆 人工智能 三個月入門人工智能

回覆 數據分析師 數據分析師成長之路

回覆 機器學習 機器學習的商業應用

回覆 數據科學 數據科學實戰

回覆 常用算法 常用數據挖掘算法

R語言實現基本統計分析之t檢驗

我怎麼這麼好看


分享到:


相關文章: