基本統計的直觀指南

基本統計概念入門

基本統計的直觀指南

> Photo by Chris Liverani on Unsplash

發現數據集秘密的過程中最基本的部分之一是統計信息(及其詞彙表,即概率)。 直到最近,我一直與統計部門建立了愛恨交加的關係。 這個話題總是讓我感到恐懼,從來沒有感覺到直覺。 最近,我碰到了蒂莫西·C·烏爾丹(Timothy C. Urdan)寫的一本名為《簡明統計》的書。 本書使統計數據對我來說很直觀,我希望通過總結本書中的觀點為您做同樣的事情。 如果您有時間,我強烈建議您閱讀本書。 我會在這裡盡力而為,但是絕對值得。

目錄

· 我們為什麼在乎?

· 人口v / s樣本

· 採樣

· 發行版

· 正態分佈

· Z分數

· 標準誤差

· P值

· 統計學意義

· 假設檢驗



我們為什麼在乎?

讓我們首先了解為什麼我們甚至需要統計數據。 最簡單的統計數據使我們能夠管理信息。 它使我們能夠收集,研究和總結信息(/數據)。 研究人員從許多人那裡收集一些信息,並以此來總結他們的經驗,並對人口做出一些一般性陳述。 例如,假設您正在建模一個數據集,目標是開發一個預測模型。 從某種意義上說,您在這裡正在做類似的事情:您收集一些信息(在ML中稱為訓練數據),通過做出一些合理的假設來彙總信息(例如,作為模型參數),並做出一般性聲明(關於測試數據)。 因此,我認為加深對統計學的理解可以幫助我們成為更好的數據建模者。

人口v / s樣本

簡單來說,人口是我們希望擁有的東西,但樣本是我們擁有的東西。 總體代表感興趣的特定組或類別的所有成員,而樣本是從總體中抽取的子集。 與維恩圖類似:人口是我們關注的領域,而樣本是其中的一個事件。

基本統計的直觀指南

> Figure 1 Venn diagram with event A and universe U.

在圖1中," A"為樣本," U"為總體。 這就是我們在典型的數據建模練習中所做的工作:嘗試使用可以推廣到總體未知部分的訓練數據(即測試數據(= U-A))建立模型。 為什麼要使用樣本而不是總體來處理,可能有多種原因:總體太大而無法收集(例如,在語言建模練習中,所有可能的句子的總和都是巨大的),信息收集過程是 昂貴和費時等。這裡的關鍵是因為我們正在與一小部分人合作,我們希望它能代表實際情況。 這就是為什麼統計學家會費勁去考慮採樣的原因。

採樣

為了確保樣本能代表總體,我們採用了所謂的隨機抽樣。 在統計方面,隨機抽樣意味著人口的每個成員都有被抽樣的機會均等。 基於這種方法,我們可以確定樣本與總體之間的任何差異都不會是系統的,而是隨機的機會造成的。 換句話說,我們可以說,通過隨機抽樣,我們不會偏向人口中的任何特定成員。 這種採樣是最流行的方式之一,也用於k折交叉驗證中。 還有其他(細微的)採樣技術類型,您可以在此處閱讀有關它們的更多信息。

發行版

收集的樣本可以包含不同類型的特徵(/隨機變量),例如連續或分類。 分佈只是變量(/功能)上數據或分數的集合。 同樣,無論變量類型如何,分數的任何集合,表格分佈和這種分佈都可以用圖形表示。 我們經常對這些分佈的特徵感興趣,例如分佈的典型值,值的變化,分佈的形狀等。 研究隨機變量的分佈可讓我們深入瞭解其行為。

分佈中的典型值通常使用統計數據來衡量,例如平均值(其他度量值包括中位數,眾數),以及使用方差(或範圍,IQR)的變化。 這些中的流行選擇是平均數和方差,但是其他選擇可能更有用,具體取決於數據類型(例如,使用離群值,中位數可能比平均數更好)。 該方差提供分數分佈中分散量的統計平均值。 查看方差的一個問題是其單位與原始變量不同。 為了解決這個問題,我們通常查看標準偏差(這是方差的平方根)。

為了更深入地瞭解標準偏差,我們來看兩個詞:偏差是指單個值與平均得分之間的差異; 標準是指典型或平均水平。 因此,標準偏差是各個值與分佈平均值之間的典型偏差或平均偏差。 使用標準差檢查分佈中分數的平均離散度。 因此,將平均值的度量與值散佈的度量相結合,可以得出分數分佈的大致情況。 在此處可以找到有關樣品標準偏差和方差的公式校正的註釋。 檢查分佈的另一種有用方法是箱線圖。

正態分佈

我正計劃通過談論正態分佈的重要性來激勵本節。 我認為這個Q / A線程做得很好。 因此,我將在這裡總結一些有關正態(也稱為貝爾曲線)分佈的事實。

基本統計的直觀指南

> A standard Normal distribution. Photo Credit: Wikimedia

它具有三個基本特徵:a)對稱,b)均值,中位數,眾數都在同一位置,即分佈的中心,c)漸近,即上,下尾巴永遠不會接觸x軸。 之所以在實踐中使用正態分佈,是因為我們關心樣本中由於偶然性而發生某種事物的確切概率。 如果我們僅對描述樣本感興趣,則值是否呈正態分佈都沒有關係。 例如,如果一個樣本中的普通人每天消耗2000卡路里,那麼樣本中一個人每天消耗5000卡路里的機會(或概率)是多少? 此外,我們經常對推斷樣本來源的總體感興趣,這些推斷可以通過使用正態分佈來完成。

那麼,給定一個分佈,我們如何找到它是否服從正態分佈? 我們可以看一下偏斜和峰度。 這些是用於描述分佈的特徵。 我們可以將分佈的偏斜度和峰度與正態分佈進行比較,以檢查我們對給定隨機變量是否服從正態分佈的假設。 正如我們將在後面的部分中看到的那樣,理論上的正態分佈是統計的關鍵要素,因為推論統計中使用的許多概率都基於正態分佈的假設。

Z-Score 分數

有時我們對描述分佈中的各個值感興趣。 使用均值和標準差,我們可以生成一個標準得分(也稱為z得分)來比較各個值的相對顯著性。 同樣,這種標準化有助於我們比較兩個單獨變量的分佈中的值(因為現在兩個變量的大小相同)。

例如,我們想比較Jim在英語測試和統計測試中的表現。 假設英語測試的範圍是0–100,而統計學測試的範圍是0–200。 此外,我們查看了論文並意識到,與英語考試相比,統計考試難度更大。 吉姆在兩個測試中的分數直接比較是不正確的。 一種更合理的方法是在比較分數之前對分數進行標準化。 標準化會以標準偏差為單位重新縮放測試分數。 請注意,即使一項測試比另一項測試難,該差異仍可通過平均值和標準偏差解決。 換句話說,z得分以標準差為單位表示分佈中給定分數的平均值高於或低於平均值。 此外,當對整個分佈進行標準化時,標準化分佈的平均z分數始終為0,標準偏差始終為1。

讓我們在這裡停留片刻,以瞭解z = 1的z得分會告訴我們什麼。 在Jim的英語測試中,z分數的z分數為z = 1可以告訴我們:a)Jim的成績比參加考試的普通學生好,b)他的分數與平均值相差1個標準差,c)如果分數是 分佈正常,他的表現要比全班大約三分之二的人好(68-95-99.7規則)。 但是,仍然有很多z分數無法描述的信息。 例如,吉姆正確拼寫了多少個單詞,或者如果他是一個很好的拼寫者,其他參加考試的學生是否是一個很好的拼寫者,則測試的難度等級,等等。如果我們確定 我們的隨機變量是Normal,我們可以計算百分位數(使用z得分表)。

重要的是要注意,我們只是對計算百分位數感興趣,我們可以在不計算z分數的情況下計算百分位數:對觀察值進行排序並使用百分位數的定義。

標準誤差

這是推論統計中最重要的概念之一,已被廣泛使用。 有兩種方法可以考慮標準誤差。 正式地,標準誤差定義為某些統計信息的採樣分佈的標準偏差(如果這使您的頭旋轉,請稍等,我們將其分解為幾行)。 考慮標準誤差的另一種方法是,它是許多推論統計中用於計算的公式中的分母。

讓我們退後一步,嘗試更深入地理解這些定義。 想象一下,我們有興趣測量社區中的平均身高。 根據我到目前為止的描述,我們從社區中的所有人中抽取了一個樣本。 為了簡單起見,我假設社區中有4個人,身高分別為1cm,2cm,3cm,4cm。 另外,我們假設樣本的大小為2。這些都是可能的對:(1,2),(1,3),(1,4),(2,3),(2,4),(3 ,4),以及基於此得出的平均身高:分別為1.5cm,2cm,2.5cm,2.5cm,3cm,3.5cm,人口平均身高為2.5cm。 可以觀察到,我們計算出的平均高度取決於繪製的樣本,並且隨著樣本的改變而變化。 換句話說,由於隨機抽樣,我們感興趣的統計量(平均高度)會有一些變化(即標準差),因此我們將其稱為標準誤差。

如果我們嘗試在這種情況下剖析定義,則表示存在採樣分佈(我們通過隨機採樣獲得該分佈;在此示例中,這是平均高度的集合),該分佈與平均高度相關 (可以是我們感興趣的任何其他統計數據,例如體重,智商等),這種分佈的標準偏差稱為標準誤差。 本質上,標準誤差是對從相同總體中抽取的相同大小樣本所期望的隨機變化量的度量。 儘管所有統計信息都有標準誤,但最常用的是平均值的標準誤。

為避免混淆並從簡單的頻率分佈中區分出採樣分佈,採樣分佈的均值和標準差被賦予特殊名稱,即分別為均值和標準誤差的期望值。 該平均值稱為期望值,因為平均值的採樣分佈平均值(即通過重複收集樣本並計算平均值而生成的分佈平均值)與總體平均值相同:當從總體中選擇樣本時, 猜測是樣本的平均值將與總體的平均值相同。 這為我們提供了標準誤差的解釋:它為我們提供了多少誤差的度量(記住,標準差告訴我們單個值和均值之間的平均差),當我們說樣本均值代表… 人口(因此,名稱標準錯誤)。

大多數情況下,我們沒有時間和資源來從總體中提取多個樣本,也無法找到樣本均值分佈(或抽樣分佈)的均值和標準差。 到目前為止,我們已經確信標準誤差確實存在,這對於分析很重要,而且通常我們無法訪問採樣分佈。 這給我們帶來了一個問題:我們可以使用樣本中的信息來提供標準誤差的一些估計嗎?

為了研究這個問題,讓我們考慮一下樣本的兩個特徵。 首先,我們的樣本有多大? 我們的樣本越大,我們對總體的估計誤差就越小,因為更大的樣本更像人口,因此,估計將更加準確。 其次,我們需要檢查樣品的標準偏差。 在此我們假設總體標準偏差等於樣本標準偏差。 關於人口的這種假設可能並不正確,但是我們必須依靠它們,因為這就是我們所擁有的全部信息。 另外,如果我們以某種方式知道總體標準偏差,則可以使用它。 因此,標準誤的公式為

基本統計的直觀指南

如果您結束了我之前鏈接的Q / A線程並瞭解了中心極限定理(CLT),那麼我們在這裡也可以說CLT指出當我們有相當大的樣本(例如n = 30)時,樣本 均值的分佈將呈正態分佈。

P值

我認為這個詞相當受歡迎。但是,讓我嘗試使其更加直觀。在繼續之前,我想稍作停頓,並回顧一下到目前為止所討論的內容。我們看到,我們通常使用的數據與實際人口之間存在差異,因為使用人口不便。為了生成樣本,我們考慮適當的採樣技術。一旦獲得樣本,我們就可以研究隨機變量的分佈,以瞭解樣本。我們還研究了所有統計數據中最基本的分佈之一的某些特徵,以及證明/反證隨機變量的分佈是否服從正態分佈的方法。我們還研究了一種標準化技術,該技術可幫助我們比較不同尺度/分佈的隨機變量的值。最後,在將樣本結果推廣到總體的問題中,我們瞭解了標準誤的重要性。在這裡,讓我們將所有這些概念一起使用,以進一步探索從樣本中概括見解的想法。

假設我們有一個樣本(來自A市),其智商測試的平均得分為110,而全國平均得分為100。我們可以看到,樣本得分和總體得分之間相差10分,但是這種差異有意義嗎? 或瑣碎的? 也許,如果我再次採樣數據,差異可能會改變。 如果您想到了標準錯誤,那麼您就走對了! 那麼,我們如何知道這種差異是否僅是由於隨機機會造成的(來自隨機抽樣技術)? 更具體地說,我們正在尋找獲得隨機樣本的可能性,以使其與全國平均水平的差異為10分。 稍停片刻,思考一下這種可能性可以為我們帶來什麼。

如果我們以某種方式具有這種可能性並且很小,那麼我們知道差異不是由於隨機機會造成的,而是由樣本的某些特徵驅動的。 這是p值的關鍵。 流行的概率臨界值是0.05。 p值為0.05表示,如果10個點的差異的概率≤0.05,則我們知道該差異是有意義的,因為我們不會因為隨機抽樣而看到此差異。

因此,讓我們回到計算概率的原始問題。您可能還記得從前,正態分佈使我們能夠計算概率(68–95–99.7規則和z得分表)。要確定10點差異的概率,我們需要樣本均值的正態分佈或均值的正態採樣分佈。我們還可以使用緊密相關的t分佈族來計算該概率。如您所見,這看起來與正態分佈非常相似。您可以觀察到,隨著分佈的大小(/自由度)增加,它趨向於正態分佈。因此,考慮選擇t分佈的一種方法是,當我們不知道總體標準差並且正在查看有限的數據(以樣本的形式)時,使用降低的t分佈可能是一個更好的主意。對某些事件的信念:我們可以觀察到t分佈的PDF壓縮了,這意味著尾端的概率相對於正態分佈增加了。計算t值的公式與z得分相同,不同之處在於它使用從樣本中計算出的標準誤差(因為我們不知道總體標準差;如果知道這一點,我們可以計算出z得分) ),並且稱為t值,因為我們使用t分佈來計算概率。

從本質上講,如果我們知道總體標準偏差,則可以使用它來計算z得分和正態分佈,以計算出與總體相比樣本上有10點差異的概率,如果不是,那麼我們可以使用標準誤差來計算 t值並使用t分佈來計算概率。

統計學意義

在本節中,我們將帶入到現在為止學到的所有思想,以探索一種流行的統計學應用,即推理。 推論的思想是研究樣本並推論有關更大人口的結論。 我們經常在許多推論統計中提出的常見問題是,與隨機抽樣導致的方差量(即標準誤差)相比,我們在樣本中觀察到的某些統計數據是大還是小。 請記住,這是一個重要的問題,因為作為隨機抽樣的結果,我們期望樣本中有一些變化(與總體相比),並且我們使用樣本標準偏差和大小對這種變化進行量化,並將其稱為標準誤差。

繼續上一部分的IQ測試示例,我們試圖回答的具有統計意義的問題是10點的差異是否是隨機採樣的結果。 用於得出有關統計量統計意義的結論的三個常用工具是測試,效果大小和置信區間。 簡而言之,測試只是使用標準誤差來計算p值,並以此來測試統計顯著性。 效應大小是由以下觀察得出的:較大的樣本具有較低的標準誤差(因為SE與樣本大小成反比,這會導致較高的z得分(/ t值),因此有必要去掉樣本大小的影響 ;置信區間是量化區間的另一種方法,如果我們重複收集樣本,我們可以確保在該區間內真實的統計信息是正確的。

用簡單的英語來說,統計意義有助於我們確定我們從研究樣本中得出的結論是否也適用於(廣泛的)人群。

假設檢驗

統計學中的另一個流行詞。 在這裡,我們要做的只是提出一個假設,然後確認或拒絕該假設。 從上一節可以得出,在某種意義上,甚至在我們執行統計顯著性檢驗之前,我們都希望建立一個基準。 這個基準是我們的假設。

通常,主要假設是原假設(H_0)。 顧名思義,這是假設無效的效果,或者不存在該效果(這可能是我們有興趣對人口進行衡量的任何效果)。 補充的假設是備用假設(H_a)。 顧名思義,我們再次考慮了零假設的替代方案,即存在效果。 因此,現在的問題稍有變化:在我們認為差異有意義或在統計上有意義之前,樣本均值(這是一個例子,我們可以選擇喜歡的任何統計數據)必須與總體均值有何不同? 請注意,在這個問題中,總體平均值是我們的H_0,樣本平均值是H_a。

例如,在較早的IQ測試示例中,H_0是全國平均值100,H_a是樣本平均值110,我們正在檢驗我們的假設,即該樣本是否存在導致10點差異的特殊之處,或者 隨機抽樣,即具有統計意義。

您可能已經注意到,所有討論都需要注意。 前面我們提到過,如果計算出的概率(p值)足夠小(我們將其定義為0.05),那麼我們說這些差異在統計上是有意義的或有意義的。 當我們接受0.05的臨界值時,實際上,我們的隨機樣本可能會造成這種差異,並且H_0為true,即我們最終選擇了極為罕見的隨機樣本(例如, 分佈選擇此類樣本的概率將為1–0.997 = 0.003!)。 因此,在這種情況下,我們最終會犯一個錯誤。 此錯誤稱為I型錯誤和截斷值alpha。



我希望現在一些基本的統計概念更加直觀。 我略過了一些基於上述思想且很有趣的重要概念:相關性,t檢驗,方差分析,迴歸。 在我們談論的內容中,我將為您提供一個有趣的檢驗:假設檢驗的正態性。

(本文翻譯自Sahil Gupta的文章《An intuitive guide to basic statistics》,參考:
https://towardsdatascience.com/an-intuitive-guide-to-basic-statistics-43e143e77a29)


分享到:


相關文章: