來來來, 和統計交朋友:概念篇 | Basic Statistics

今天通過概念介紹進一步看統計學的“工作原理”。

為什麼先要介紹概念呢?

想必大家都看過素描,寥寥幾筆就可以勾勒出一頭大象,其實這就是“概念”的力量。

來來來, 和統計交朋友:概念篇 | Basic Statistics

按這個邏輯,我們也可以將複雜的統計學用一張圖給大家勾勒出來;有了對主體框架的理解之後,後續的“細枝末節”理解起來也就相對容易了。

這個主體框架由以下四個部分構成:

§ 總體 Population

§ 樣本 Sample

§ 統計量 Statistic

§ 參數 Parameter

如何理解呢?

1、如下圖所示,我們想要研究的對象的全部就是總體

2、但由於各種原因我們並不可能真的去研究這個“全部”,比如時間原因、成本原因,以及技術性問題,導致我們只能“弱水三千,只取一瓢”,這裡的“一瓢”就是

樣本

3、我們通過總結、描述樣本的特性或特點就得到樣本統計量

4、如果我們有足夠的信心度,就可以以此推斷總體的特性,即參數

來來來, 和統計交朋友:概念篇 | Basic Statistics

以上邏輯如果要用一個成語來概括,那就是 “一葉知秋”。

來來來, 和統計交朋友:概念篇 | Basic Statistics

統計學中實在有太多的概念,為了不讓篇幅過於冗長而影響閱讀體驗,今天我們僅對抽樣(sampling) 做一些展開,因為這個概念太重要了。

要得到樣本,我們的方法是抽樣;要得到能夠代表總體的

合理樣本,我們需要有合理的抽樣方式以及合理的樣本量

這裡的合理樣本是相對概念,因為抽樣誤差總會出現。我們要做的是儘量去減少因抽樣不合理導致的誤差。

但抽樣時,我們要特別小心“倖存者偏差 ”(Survivorship bias);即便不學統計,這個概念也值得我們細細研究和學習:

在二戰期間,人們發現倖存的轟炸機中,機翼中彈的數量很多,而機身中彈的卻很少。因此人們認為我們應該加固飛機的機翼。其實不然,就是因為機翼中彈多還能飛回來,所以機翼中彈並沒有影響飛機返航;而機身中彈的少則說明了子彈打中機身對飛機的影響更大,導致飛機不能返航。

來來來, 和統計交朋友:概念篇 | Basic Statistics

因此我們有多種抽樣方式,常用抽樣方法有:

§ 單純隨機抽樣(simple random sampling)

§ 系統抽樣(systematic sampling)

§ 整群抽樣(cluster sampling)

§ 分層抽樣(stratified sampling)

不管何種抽樣方式,我們都希望每一個體被抽中的概率的一樣的,否則就會導致類似"倖存者偏差"的結果出現。

樣本量的大小

§ 樣本要足夠大(精確性考慮)

§ 又要足夠小(經濟型考慮)

樣本量越大誤差就越小, 比如我們在對變量數據(如尺寸)計算過程能力PPK,30個變量數據只能粗略估計;如果要更精確計算過程能力,則需要更多的數據呢?大約200。而針對特性數據作特性估計,粗略和精確估計則分別需要100和1000。

當然,現實充滿了矛盾,數據要得越多成本也就越大,所以要合理取捨。生活中這樣的例子可謂比比皆是啊?

抽樣的現實意義

沒有抽樣就沒有統計學。沒有抽樣,今天我們的質量管理也會大不一樣:比如統計過程控制SPC,比如PP/PPK過程能力的計算,再比如我們 IATF16949 體系審核等等質量工作的開展都是基於抽樣來實現的。

因此如果對抽樣方法沒有深刻的理解和掌握,那麼運用像SPC、過程能力分析PPK等工具的效果就會大打折扣哦。

“大數據”時代還要抽樣統計?

是的,說到統計就不得不想起大數據這個火熱的概念。

一定有人會說了,“現在已經是大數據時代了,抽樣已經沒有必要了”。

其實現實並不是這樣,我們所在的是一個數據大爆炸的信息時代,你並不可能收集到所有場合的所有數據。至少在質量管理領域,想通過大數據來取代基於抽樣的統計目前肯定是不現實的。


分享到:


相關文章: