SPSS方法|嶺迴歸分析

前言

嶺迴歸:嶺迴歸分析是在構建多重線性迴歸模型時, 對基於“最小二乘原理”推導出的估計迴歸係數的計算公式作一下校正,使迴歸係數更穩定。

當自變量之間存在較強的多重共線性時,求得的多重線性迴歸模型很不穩定; 尤其是某些自變量回歸係數的正負號與實際問題的專業背景不吻合時,嶺迴歸分析可以很好地解決這一問題。

1 實施的一般步驟

1 嶺迴歸分析通常要先對 X 變量作中心化和標準化處理, 以使不同自變量處於同樣數量級上而便於比較。

2確定 k 值

① 嶺跡圖

嶺跡法主要是通過將 β( k) 的分量 βi( k) 的嶺跡畫在同一幅圖上, 從圖中選擇儘可能小的 k 值, 使得各回歸係數的嶺估計大體穩定, 即各分量在圖上的嶺跡曲線趨於平行於X 軸。

選擇 k 值的一般原則主要有: ①各回歸係數的嶺估計基本穩定; ②用最小二乘估計時符號不合理的迴歸係數, 其嶺估計的符號將變得合理; ③迴歸係數的大小要與實際相符, 即從專業上講對因變量影響較大的自變量其係數的絕對值也較大; ④均方誤差增大不太多。

②方差膨脹因子法

方差膨脹因子 cjj 度量了多重共線性的嚴重程度, 一般當 cjj > 10 時, 模型就有嚴重的多重共線性。

3根據嶺跡圖進行變量篩選及重新確定k值

把嶺跡應用於迴歸分析中自變量的選擇,其基本原則為:

(1)去掉嶺迴歸係數比較穩定且絕對值比較小的自變量。這裡嶺迴歸係數可以直接比較大小,因為設計陣 X 是假定已經中心標準化了的。

(2)去掉嶺迴歸係數不穩定但隨著 k 值的增加迅速趨於零的自變量。

(3)去掉一個或若干個具有不穩定嶺迴歸係數的自變量。如果不穩定的嶺迴歸係數很多,究竟去掉幾個, 去掉哪幾個, 並無一般原則可遵循。這要結合已找出的復共線性關係以及去掉後重新進行嶺迴歸分析的效果來決定。

4對模型進行表達及作出專業結論

在進行嶺估計後, 應根據所估計的參數寫出迴歸方程, 並結合專業知識判斷方程中各自變量的係數及正負號是否符合實際情況。最後根據迴歸係數的大小來判斷各自變量對因變量影響的大小及根據所求得的迴歸方程進行預測。

2 案例分析

以下為11名兒童的智力測試數據,試以IQ為因變量擬合多重線性迴歸模型。其中,變量常識(X1)、算數(X2)、理解(X3)、拼圖(X4)、積木(X5)、譯碼(X6),IQ(Y)。

SPSS方法|嶺迴歸分析

數據類型:自變量(X1~X6),因變量Y 均為定量資料;根據研究目的,試採用多重線性迴歸模型來分析。

3 SPSS操作

(Ⅰ)先擬合多重線性迴歸模型

(Ⅱ)輸出結果

為了說明問題,只列出係數表;

變量X1~X6 ,p-value 均 大於0.05,即納入多重線性迴歸模型中無統計學意義;其次,共線性診斷中,VIF(variation inflation factor)均大於10,提示變量間存在多重共線性。

SPSS方法|嶺迴歸分析

由於多重共線性的存在,使得多重線性迴歸模型不穩定,而嶺迴歸分析可以很好地解決這個問題。

4 SPSS之嶺迴歸

在SPSS中沒有專門的菜單模塊來做嶺迴歸分析,但可以通過額外編寫了一個程序文件: ridge regression.sps, 用戶可以編寫一段代碼來調用該程序做嶺迴歸分析。

SPSS方法|嶺迴歸分析

其中,

INCLUDE ' 文件 Ridge regression.sps 所在路徑 ' .

RIGDEREG ENTER = 自變量

/DEP = 因變量

/START = k值起始值

/STOP = k值終末值

/INC = k值步長

【運行】單擊 RunALL

運行結果:

嶺迴歸:嶺跡圖,從圖中大致看出k≧0.1 時,嶺跡曲線趨於穩定 。

SPSS方法|嶺迴歸分析

輸出的變量X1~X6 不同K值情況下的迴歸係數

(在SPSS中,原始數據已標準化)

SPSS方法|嶺迴歸分析

驗證當k=0.1時的模型,

SPSS方法|嶺迴歸分析

驗證結果:

SPSS方法|嶺迴歸分析

本結果擬合得不太理想,僅供參考~~~

因此可以寫出嶺迴歸方程式:y= ~~~~


分享到:


相關文章: