9種常用數據分析方法,你還沒get嗎?

9種常用數據分析方法,你還沒get嗎?


數據分析方法,知乎上有充斥著多篇文章。而在我個人從業的經驗中,發現在網上這篇文章對分析方法的描述是比較全面的,所以特意摘錄。後續會針對每個方法,逐步展開講述。

01


描述性統計


描述性統計是一類統計方法的彙總,揭示了數據分佈特性。它主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分佈以及一些基本的統計圖形。


1. 缺失值填充:常用方法有剔除法、均值法、決策樹法。

2. 正態性檢驗:很多統計方法都要求數值服從或近似服從正態分佈,所以在做數據分析之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。


02


迴歸分析


迴歸分析是應用極其廣泛的數據分析方法之一。它基於觀測數據建立變量間適當的依賴關係,以分析數據內在規律。


1. 一元線性分析

只有一個自變量X與因變量Y有關,X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態分佈。


2. 多元線性迴歸分析

使用條件:分析多個自變量X與因變量Y的關係,X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態分佈。


3. Logistic迴歸分析

線性迴歸模型要求因變量是連續的正態分佈變量,且自變量和因變量呈線性關係,而Logistic迴歸模型對因變量的分佈沒有要求,一般用於因變量是離散時的情況。


4. 其他迴歸方法:非線性迴歸、有序迴歸、Probit迴歸、加權迴歸等。


03


方差分析


使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分佈總體;各總體方差相等。


1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關係。


2. 多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關係,同時考慮多個影響因素之間的關係


3. 多因素無交互方差分析:分析多個影響因素與響應變量的關係,但是影響因素之間沒有影響關係或忽略影響關係


4. 協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協方差分析主要是在排除了協變量的影響後再對修正後的主效應進行方差分析,是將線性迴歸與方差分析結合起來的一種分析方法。


04


假設檢驗


1. 參數檢驗

參數檢驗是在已知總體分佈的條件下(一股要求總體服從正態分佈)對一些主要的參數(如均值、百分數、方差、相關係數等)進行的檢驗 。


2. 非參數檢驗

非參數檢驗則不考慮總體分佈是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分佈的位罝是否相同,總體分佈是否正態)進行檢驗。


適用情況:順序類型的數據資料,這類數據的分佈形態一般是未知的。

1)雖然是連續數據,但總體分佈形態未知或者非正態;

2)總體分佈雖然正態,數據也是連續類型,但樣本容量極小,如10以下;


主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。


05


相關分析


相關分析是一種非確定性的關係,研究現象之間是否存在某種依存關係,並對具體有依存關係的現象探討其相關方向以及相關程度。


1. 單相關:

兩個因素之間的相關關係叫單相關,即研究時只涉及一個自變量和一個因變量;


2. 複相關:三個或三個以上因素的相關關係叫複相關,即研究時涉及兩個或兩個以上的自變量和因變量相關;


3. 偏相關:在某一現象與多種現象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關係稱為偏相關。


06


聚類分析


聚類是將數據分類到不同的類或者簇這樣的一個過程,因此同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。


1)系統聚類法:適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類。

2)逐步聚類法 :適用於大樣本的樣本聚類。

3)其他聚類法 :兩步聚類、K均值聚類等。

07


判別分析


判別分析,是一種統計判別和分組技術,就一定數量樣本的一個分組變量和相應的其他多元變量的已知信息,確定分組與其他多元變量信息所屬的樣本進行判別分組。


判別分析與聚類分析的區別

1. 聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本進行分類;


2. 聚類分析事先不知道事物的類別,也不知道分為幾類;而判別分析必須事先知道事物的類別,並且知道分幾類;


3. 聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類。


08


因子分析


因子分析是指研究從變量群中提取共性因子的統計技術,從大量的數據中尋找內在的聯繫,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法、最大似然法、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。


這些方法本質上大都屬近似方法,以相關係數矩陣為基礎。在社會學研究中,因子分析常採用以主成分分析為基礎的反覆法。


09


主成分分析


通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換後的這組變量叫主成分。其主要思想是降維,將n維特徵映射到k維上(k


與因子分析比較:

相同:都能夠起到分析多個原始變量內在結構關係的作用;

不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關係。


薦:

【中國風動漫】除了《哪吒》,這些良心國產動畫也應該被更多人知道!


來源:知乎,RAD極客會(ID:RAD_Geek_Club)推薦閱讀,不代表RAD極客會立場,轉載請註明,如涉及作品版權問題,請聯繫我們刪除或做相關處理!

"


分享到:


相關文章: