![邏輯斯蒂迴歸:家庭買私家車的概率](http://p2.ttnews.xyz/loading.gif)
歡迎關注天善智能,我們是專注於商業智能BI,人工智能AI,大數據分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!
對商業智能BI、大數據分析挖掘、機器學習,python,R等數據領域感興趣的同學加微信:tstoutiao,邀請你進入數據愛好者交流群,數據愛好者們都在這兒。
作者:herain R語言中文社區專欄作者
知乎ID:https://www.zhihu.com/people/herain-14
前言
我們討論過因變量為數值型的
一元線性
和
多元線性
預測模型,今天我們來討論定型變量的迴歸模型,定性變量可以說是一種類別變量,比如男/女,優/良/差,是/否,真/假,黑/白等,因變量的結果集是有限的,可預設的,定性變量的迴歸模型,就是基於歷史數據訓練出來一種數學表達式,來判斷新數據的屬於哪一種定性因變量的概率大小。為日常的常見的是否類決策,提供準確度的數值度量。
目錄:
一,簡述什麼是定性因變量?
二,定性變量回歸方程的意義?
三,定性因變量回歸的特殊問題?
四,引入Logistic模型,解決定性因變量回歸的特殊問題
五,Logistic模型實戰
一、簡述什麼是定性因變量
在許多社會經濟問題中,所研究的因變量往往只有兩個可能結果,這樣的因變量也可用虛擬變量來表示,虛擬變量的取值可取0或1。0/1 對應現實意義的假/真,這是對多種因素觸發結果的一種二分描敘。二分描述就是一種二分定性,定性結果集「0,1」或「假,真」。表示結果的變量,統稱為定性變量,本質是分類變量。
二、定性變量回歸方程的意義
設因變量y是隻取0,1兩個值的定性變量,考慮簡單線性迴歸模型:
![邏輯斯蒂迴歸:家庭買私家車的概率](http://p2.ttnews.xyz/loading.gif)
在這種y只取0,1兩個值的情況下,因變量均值
有著特殊的意義。
由於
是0-1型貝努利隨機變量,則得如下概率分佈:
根據離散型隨機變量期望值的定義,可得:
得到:
因變量均值y是自變量水平為x是y=1的概率。
三、定性因變量回歸的特殊問題
3.1
離散非正態誤差項
對一個取值為0和1的因變量,誤差項
只能取兩個值:
當
時,
當
時,
顯然,誤差項
是兩點型離散分佈,當然正態誤差迴歸模型的假定就不適用了。
3.2
零均值異方差性
當因變量是定性變量時,誤差項
仍然保持零均值,這時出現的另一個問題是誤差項εi的方差不相等。0-1型隨機變量
的方差為:
的方差依賴於
,是異方差,不滿足線性迴歸方程的基本假定。
3.3
迴歸方程的限制
當因變量為0、1虛擬變量時,迴歸方程代表概率分佈,所以因變量均值受到如下限制:
對一般的迴歸方程本身並不具有這種限制,線性迴歸方程
將會超出這個限制範圍。
3.4
特殊問題的解決辦法
對於普通的線性迴歸所具有的上述3個問題,雖然可以找到一些相應的解決辦法。例如,對於誤差項不是正態的情形,最小二乘法求得的無偏估計量在絕大多數情況下是漸近正態的。因此,當樣本容量較大時,未知參數的估計與誤差項假設為正態分佈時的方式相同;對於異方差情況,可以用加權最小二乘法來處理;對受迴歸方程限制的情況,對模型範圍內的x來說,可以通過確保擬合模型的因變量均值不小於0和不大於1來處理。但是這些並不是從根本上解決問題的辦法,為了從根本上解決問題,我們需要構造一個自動滿足以上限制的模型來處理。
四、引入Logistic模型,解決上述問題
第一,迴歸函數應該改用限制在[0,1]區間內的連續曲線,而不能再沿用直線迴歸方程。
限制在[0,1]區間內的連續曲線有很多,例如所有連續型隨機變量的分佈函數都符合要求,我們常用的是Logistic函數與正態分佈函數。Logistic函數的形式為 :
第二,因變量
本身只取0、1兩個離散值,不適於直接作為迴歸模型中的因變量。
由於迴歸函數
表示在自變量為
的條件下
的平均值,而
是0-1型隨機變量,因而
就是在自變量為
的條件下
等於1的比例。這提示我們可以用
等於1的比例代替
本身作為因變量。
五、Logistic模型實戰
數據:某地區45個家庭數據的調查,其中y是分類變量(是否有私家車,1表示有,0表示沒有)x 表示家庭年收入單位萬元,根據這些數據建立Logistic迴歸模型,估計年收入15萬元的家庭買私家車的可能性。
x y
15 1
20 1
10 0
12 1
8 0
30 1
6 0
16 1
22 1
36 1
7 0
24 1
6 0
11 0
18 1
25 1
12 0
10 0
15 1
7 0
22 1
7 0
16 1
18 1
21 1
7 0
9 0
6 0
20 1
16 1
12 0
15 1
9 0
基於R語言操作如下:
1> library(readxl)
2> data3.1 3
4> glm.logit 5Warning message:
6glm.fit:擬合機率算出來是數值零或一
7> summary(glm.logit)
8
9Call:
10glm(formula = y ~ x, family = binomial, data = data3.1)
11
12Deviance Residuals:
13 Min 1Q Median 3Q Max
14-1.21054 -0.05498 0.00000 0.00433 1.87356
15
16Coefficients:
17 Estimate Std. Error z value Pr(>|z|)
18(Intercept) -21.2802 10.5203 -2.023 0.0431 *
19x 1.6429 0.8331 1.972 0.0486 *
20---
21Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
22
23(Dispersion parameter for binomial family taken to be 1)
24
25 Null deviance: 62.3610 on 44 degrees of freedom
26Residual deviance: 6.1486 on 43 degrees of freedom
27AIC: 10.149
28
29Number of Fisher Scoring iterations: 9
根據R計算我們得到迴歸模型函數:
計算
時
的概率:
1> yp2> p.fit3> p.fit
41
50.9665418
有R計算結果可知:年收入15萬的家庭買私家車的概率為97%。
總
結
我們用Logistic迴歸模型成功地擬合了因變量為定性變量的迴歸模型,但是仍然存在一個不足之處,就是異方差性並沒有解決,迴歸模型不是等方差的,應該對模型式用加權最小二乘估計。權重係數:
,優化模型的路漫漫。
往期精彩:
- R語言:data.table語句批量生成變量
- 【R語言實用技巧】隨機排序、隨機抽樣與分層抽樣
- R語言中文社區2018年終文章整理(作者篇)
- R語言中文社區2018年終文章整理(類型篇)
回覆 爬蟲 爬蟲三大案例實戰
回覆 Python 1小時破冰入門
回覆 數據挖掘 R語言入門及數據挖掘
回覆 人工智能 三個月入門人工智能
回覆 數據分析師 數據分析師成長之路
回覆 機器學習 機器學習的商業應用
回覆 數據科學 數據科學實戰
回覆 常用算法 常用數據挖掘算法
閱讀更多 天善智能 的文章