歡迎關注天善智能,我們是專注於商業智能BI,人工智能AI,大數據分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!
對商業智能BI、大數據分析挖掘、機器學習,python,R等數據領域感興趣的同學加微信:tstoutiao,邀請你進入數據愛好者交流群,數據愛好者們都在這兒。
作者:曹毛毛 R語言中文社區專欄作者 北京協和醫學院在讀碩士
前言
在本章開始之前請思考幾個問題,年齡、體重、性別在統計學中屬於同一種數據形式嗎?如果不是則分別是哪種?搞清楚數據類型是數據分析的第一步,當然在此之前你已經有了一份已經清洗乾淨的數據庫。
在統計領域內數據可簡單以下幾類:
- 計量資料
- 計數資料
- 等級資料
根據研究目的還可以將資料進行計量——等級——計數資料轉化。不過要記住不能相互轉化,只能由高級像低級轉化,其實很好理解,因為計數資料信息量較少,轉化能力自然較弱。
以人群身高為例,按照某個標準規定160以下為較矮,高於160則為高,這樣可以將身高計量資料轉化為計數資料高矮。
下面簡單的回答一下章節開頭的小問題:
年齡和體重如29歲,80kg是可以由一些測量工具準確得到的值,因此為計量資料。
性別不可以用工具測量其值,它是一種類別,反映事物的某種屬性,因此是分類資料也可稱為計數資料。
在調查公司員工對經理的滿意程度,分為非常滿意、滿意、一般、不滿意四類,這樣收集到的數據則是反應某種等級,稱為等級資料。相信你也不敢說不滿意~
瞭解基本數據類型後,趕緊開啟你的統計之旅吧~本章僅涉及計量資料統計方法應用:
t檢驗用於判斷兩個總體均值是否具有差異,來源於正態分佈
t檢驗的應用條件是:樣本含量較小且滿足正態、方差齊
單樣本t檢驗:用於樣本均數和已知總體均數之間的比較
例1. 研究表明,漢族足月正常生產男嬰雙頂徑均數為9.3cm,某醫生記錄某山區12名漢族足月正常生產男嬰雙頂徑資料如下:9.95 9.33 9.49 9.00 10.09 9.15 9.52 9.33 9.16 9.37 9.11 9.27(數據來源於醫學統計學第二版,劉桂芬主編)
試問該山區男嬰的雙頂徑是否大於一般男嬰雙頂徑?
解決的問題:該山區男嬰的雙頂徑是否大於一般男嬰雙頂徑,換句話說即判斷該山區男孩是否和已知總體是同一總體。
基本概念
先來理解一下基本概念
12名男嬰是該山區的一個有代表性的小樣本,一個山區不可能只有12名足月正常生產的男嬰,當然如果對該山區的所有男嬰進行測量,任務量未免過重。實際應用中不可能把總體全部均進行檢測。這種從總體(該山區所有足月正常生產男嬰)中抽取一部分(12名足月正常生產男嬰)具有代表性的集合叫做樣本,而這個蒐集樣本的過程叫做抽樣。理解了樣本與總體的區別,再來體會一下假設檢驗的概念。依託於小概率反證法的思想,對總體的統計學特徵做出兩種對立的假設以此題為例,假設:該山區男嬰和已知總體是同一個總體,據此計算出樣本的某個統計量的概率,若這個概率特別小,小到這件事情不可能發生,則拒絕原假設。若這個概率較大,說明發生的可能性還是很大的,則沒有足夠把握拒絕原假設,該山區男孩和已知總體可能就是來自於同一個總體。
無效假設(nullhypothesis)H0:該山區男嬰雙頂徑和一般男嬰雙頂徑沒有區別
備擇假設(alternativehypothesis)H1:該山區男嬰雙頂徑大於一般男嬰雙頂徑
均數,標準差,t值
均數反應一組符合正態分佈或者近似正態分佈資料的平均水平
標準差:反應一組符合正態分佈或者近似正態分佈資料的離散趨勢,即變異程度
例如體重,一般人群體重在50kg左右,而有的人過重達到70kg,而有的人過輕40kg,距離平均值越遠,離散值就越大,標準差越大
用R實現以上手工過程~~畢竟足夠大的樣本量會讓你計算到懷疑人生
代碼實現
T檢驗的第一種變身:
#構建數據集合mydata
結果得:
#單樣本t檢驗t.test(mydata, alternative = "greater", mu = 9.3
結果得:
結果顯示t=1.0257p=0.1635>0.05 說明在此假設的基礎上還是很有可能發生此事情,因此不能拒絕原假設,還不能認為該山區正常產男嬰雙頂徑大於一般男孩雙頂徑
T檢驗的第二種變身:配對t檢驗
適用於配對資料的計量資料
主要有三種應用情形:
- 同質受試對象分別接受兩種不同的處理
- 同一受試對象分別接受兩種不同的處理
- 同一受試對象自身前後比對
著重理解配對的含義同一個受試者接受兩種不同的處理。無論哪種配對情形,均有共同點,就像一根樹枝在同一點分叉,再比較兩個小岔之間的區別,實在想像不出分叉的樹枝可以低頭看看自己分叉的髮尾~
判斷簡便法和常規法測定膽鹼酯酶活性有無統計意義,對8人同時用兩種方法進行測定,所得結果如下表所示,試分析簡便法測量膽鹼酯酶活性是否優於常規法。
#構造數據集合c1
結果得:
第三種變形:完全隨機兩樣本比較t檢驗
推論兩樣本均數所代表的兩總體均數是否相等,其設計原理是將受試對象完全隨機分為兩組,分別接受兩種不同的處理
分為兩種情況:
1.方差齊
試比較南北身高是否有差異
c1
結果得:
t.test(high,low,paired = FALSE)
結果得:
2.方差不齊
(這個情況大家可以自己舉例,用代碼探索如何實現,歡迎你將自己的成果分享在評論區)
總結:
相信到這裡,t檢驗你已經可以應用自如啦,其實三種t檢驗的變形之間是互通的,均是以樣本的均數和總體的均數做比較,總體均數可以是一個已知的某個值也可以是0。
回覆 爬蟲 爬蟲三大案例實戰
回覆 Python 1小時破冰入門
回覆 數據挖掘 R語言入門及數據挖掘
回覆 人工智能 三個月入門人工智能
回覆 數據分析師 數據分析師成長之路
回覆 機器學習 機器學習的商業應用
回覆 數據科學 數據科學實戰
回覆 常用算法 常用數據挖掘算法
我怎麼這麼好看
閱讀更多 天善智能 的文章