看不懂統計?因你缺少這本極簡統計學祕籍

最近幾年,統計學突然以驚人的速度流行起來。為什麼它會受到社會的廣泛關注呢?

看不懂統計?因你缺少這本極簡統計學秘籍

近年來,伴隨著計算機性能的提升,我們的生活變得更加信息化。因此,現代社會也被稱作信息化社會。在互聯網上,每天都產生著大量的信息。真不愧是“大數據的時代”啊!身處這樣的時代,具備統計分析的能力有如下兩點好處。

第一,能夠處理大量的數據。在IT技術普及的當今社會里,如果不能掌握處理大量數據的能力,數據對我們來說不過是一座垃圾山。只要能掌握一點點的統計分析能力,我們就能把垃圾變為寶藏。在信息化社會,面對工作和生活,我們必須能夠正確處理手中的數據,並做出恰如其分的判斷。

第二,能夠正確理解數據分析的結果。現在,各路媒體把來自不同領域的統計數據稍做加工,就大肆散佈。然而,這些報道是否正確讓人心存疑惑。很有可能,它們是被人為捏造出來的。如果我們稍微具備一點統計學的知識,就能識別出這些信息的真偽。

接下來,就讓我們一起打開統計學的大門,瞭解統計學的基礎知識!

看不懂統計?因你缺少這本極簡統計學秘籍

一、開放數據

開放數據的基本思想是: “應該提供某些特定的數據以便所有人都可以自由地使用和發佈而不受版權和專利保護的限制。”開放數據包含了國家和市政當局保有的公共數據。公民可以利用這些公開數據,對政府政策等進行自由的分析和推斷。

看不懂統計?因你缺少這本極簡統計學秘籍

此外,公開數據可以實現官方和民間的信息共享,並通過官民協作加強公共服務機構建設,以及通過行政部門提供的信息鼓勵民營服務機構發展。這樣,將會進一步激發創業和提高企業效率,並在全國範圍內振興經濟。

二、多元分析

健康調查的樣本數據中存在各種變量(項目),例如“身高”“體重”“血壓”。此外,經濟學的調查數據也涉及各種各樣的變量。這樣的情況可以使用多元分析來處理含有多個變量的樣本數據。左下表是員工的工作業績的彙總。表中變量只有工作業績z。根據此表可以明顯看出每個員工的工作業績的好壞,但別的信息就無從知曉了。右下表彙總了員工身高x、體重y和工作業績z這三個變量。通過此表不僅能夠看到每個人工作業績的好壞,還可用來分析身高、體重和工作業績之間的關係。這就是多元分析技術。

看不懂統計?因你缺少這本極簡統計學秘籍

多元分析主要包括迴歸分析、主成分分析、判別分析、因子分析、聚類分析、量化理論等多種具體的分析方法。

三、迴歸分析

當樣本由多項數據構成時,由其中某幾項數據解釋並預測某一項數據的分析方法稱為迴歸分析。比如基於宣傳費預測銷售額這樣的由單個變量預測單個變量的迴歸分析稱為一元迴歸分析。而基於廣告費和員工數量預測銷售額這樣的由多個變量預測單個變量的迴歸分析稱為多元迴歸分析。

現在先介紹一個案例。下面是根據表格中的10組房屋租賃數據,由佔地面積(x),到車站的時間(u)和建築年限(v)對租金(y)進行迴歸分析和預測的過程。

看不懂統計?因你缺少這本極簡統計學秘籍

四、因子分析

我們總是喜歡用簡單的因果關係來解決複雜的問題。比如,“因為他有理科的天賦所以他擅長理科,因為他沒有文科的天賦所以他的語文不好”,“他是O型血所以比較隨便”。像這樣因果關係簡單的推理比比皆是。使用簡單的因子來描述複雜事物的統計方法稱為因子分析。統計現象背後往往存在紛繁複雜的關係。因子分析旨在對這些關係進行歸納整理成較少的幾個因子,並利用這幾個因子來解釋說明原始數據的內容。

這種方法類似於科學世界的原子論。原子論認為原子的不同組合致使世界上出現了各種複雜的現象。統計學也認為複雜的現象是由因子不同組合而引起的。

看不懂統計?因你缺少這本極簡統計學秘籍

五、主成分分析

如果能將大量雜亂無章的變量整理成少數幾個主要的變量,我們就能更輕易地提取出數據中蘊含的信息。比如用1到2個變量總結10個變量的信息,原始數據就可以變得簡單易懂。

假設有一組數據由四個與身體相關的變量w,x,y,z構成,並且假設u為四個變量之和,u可以寫為:

u=aw+bx+cy+dz,且a 2 +b 2 +c 2 +d 2 =1

如何找到合適的a、b、c、d的值,使u的方差達到最大?分析原始數據可以找出答案。基於下表可得u為:

u=0.382w+0.277x+0.784y+0.402z ①

看不懂統計?因你缺少這本極簡統計學秘籍

由於①式中每個變量的係數都為正數,我們可以假設u是身體各指標的綜合值,並將其命名為“體質”。可以看出7號“體質”最好而1號“體質”最差。這樣的分析方式就是主成分分析。

六、判別分析

判別分析是一種通過直線或曲線的判別函數對研究對象的各項數據進行判別分組的分析方法。判別分析可以應用於“根據價格x和性能y對銷量高的車和銷量低的車進行判別分組,並將分析的結論用於指導今後的生產和銷售活動”等等。

看不懂統計?因你缺少這本極簡統計學秘籍

七、聚類分析

聚類分析是一種依據研究對象的特徵,利用樹狀結構對其進行分類,並進行數據挖掘的統計分析方法。下表彙總了5名員工的工作業績和工作態度的數據。首先基於此表計算2名員工之間的歐氏距離,再按照距離由近到遠的順序將5個人關聯起來,最後可以得到如下的樹形圖(tree diagram)。

看不懂統計?因你缺少這本極簡統計學秘籍

注:聚類(cluster)在英語中表示“群”“叢”“簇”。

八、量化理論

量化理論將定性數據用排序或賦值的方式來表示,再進行分析。

下表使用“喜歡”“討厭”等定性數據來描述諸如體重等定量數據,這種方法稱為量化分類。

下表是一個問卷調查的結果,調查的是飲食習慣、節假日休閒方式和體重之間關係。

看不懂統計?因你缺少這本極簡統計學秘籍

使用x 1 ,x 2 ,y 1 ,y 2 ,y 3 對每個項目(類別)打分,結果如下。

看不懂統計?因你缺少這本極簡統計學秘籍

為了使x 1 ,x 2 ,y 1 ,y 2 ,y 3 的和(樣本得分)能夠準確地評價樣本,下表根據統計學的理論計算出了一些數值。

看不懂統計?因你缺少這本極簡統計學秘籍

可以得出結論“吃肉比吃魚更容易胖”等。

看不懂統計?因你缺少這本極簡統計學秘籍

統計學的歷史始於人類文明的起源。直到現代,統計學根據社會的需求一直不斷髮展。社會科學和自然科學領域的研究人員,需要處理大量數據;公司和個人為了追求利潤和發展,也必須使用到統計學。此外,隨著現代計算機技術的發展,統計學的應用也擴展到各個研究領域。

在信息時代,統計學的確可以稱作最強有力的武器。在此,人郵君向您傾情推薦這本《統計學入門很簡單 看得懂的極簡統計學》,讓您輕鬆讀懂統計學知識、輕鬆應對現代生活!

看不懂統計?因你缺少這本極簡統計學秘籍


分享到:


相關文章: