邏輯斯蒂迴歸:家庭買私家車的概率

邏輯斯蒂迴歸:家庭買私家車的概率

歡迎關注天善智能,我們是專注於商業智能BI,人工智能AI,大數據分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!

對商業智能BI、大數據分析挖掘、機器學習,python,R等數據領域感興趣的同學加微信:tstoutiao,邀請你進入數據愛好者交流群,數據愛好者們都在這兒。

作者:herain R語言中文社區專欄作者

知乎ID:https://www.zhihu.com/people/herain-14

前言

我們討論過因變量為數值型的

一元線性

多元線性

預測模型,今天我們來討論定型變量的迴歸模型,定性變量可以說是一種類別變量,比如男/女,優/良/差,是/否,真/假,黑/白等,因變量的結果集是有限的,可預設的,定性變量的迴歸模型,就是基於歷史數據訓練出來一種數學表達式,來判斷新數據的屬於哪一種定性因變量的概率大小。為日常的常見的是否類決策,提供準確度的數值度量。

目錄

一,簡述什麼是定性因變量?

二,定性變量回歸方程的意義?

三,定性因變量回歸的特殊問題?

四,引入Logistic模型,解決定性因變量回歸的特殊問題

五,Logistic模型實戰

一、簡述什麼是定性因變量

在許多社會經濟問題中,所研究的因變量往往只有兩個可能結果,這樣的因變量也可用虛擬變量來表示,虛擬變量的取值可取0或1。0/1 對應現實意義的假/真,這是對多種因素觸發結果的一種二分描敘。二分描述就是一種二分定性,定性結果集「0,1」或「假,真」。表示結果的變量,統稱為定性變量,本質是分類變量

二、定性變量回歸方程的意義

設因變量y是隻取0,1兩個值的定性變量,考慮簡單線性迴歸模型:

邏輯斯蒂迴歸:家庭買私家車的概率

在這種y只取0,1兩個值的情況下,因變量均值

邏輯斯蒂迴歸:家庭買私家車的概率

有著特殊的意義。

由於

邏輯斯蒂迴歸:家庭買私家車的概率

是0-1型貝努利隨機變量,則得如下概率分佈:

邏輯斯蒂迴歸:家庭買私家車的概率

根據離散型隨機變量期望值的定義,可得:

邏輯斯蒂迴歸:家庭買私家車的概率

得到:

邏輯斯蒂迴歸:家庭買私家車的概率

因變量均值y是自變量水平為x是y=1的概率。

三、定性因變量回歸的特殊問題

3.1

離散非正態誤差項

對一個取值為0和1的因變量,誤差項

邏輯斯蒂迴歸:家庭買私家車的概率

只能取兩個值:

邏輯斯蒂迴歸:家庭買私家車的概率

時,

邏輯斯蒂迴歸:家庭買私家車的概率

邏輯斯蒂迴歸:家庭買私家車的概率

時,

邏輯斯蒂迴歸:家庭買私家車的概率

顯然,誤差項

邏輯斯蒂迴歸:家庭買私家車的概率

是兩點型離散分佈,當然正態誤差迴歸模型的假定就不適用了。

3.2

零均值異方差性

當因變量是定性變量時,誤差項

邏輯斯蒂迴歸:家庭買私家車的概率

仍然保持零均值,這時出現的另一個問題是誤差項εi的方差不相等。0-1型隨機變量

邏輯斯蒂迴歸:家庭買私家車的概率

的方差為:

邏輯斯蒂迴歸:家庭買私家車的概率

邏輯斯蒂迴歸:家庭買私家車的概率

的方差依賴於

邏輯斯蒂迴歸:家庭買私家車的概率

,是異方差,不滿足線性迴歸方程的基本假定。

3.3

迴歸方程的限制

當因變量為0、1虛擬變量時,迴歸方程代表概率分佈,所以因變量均值受到如下限制:

邏輯斯蒂迴歸:家庭買私家車的概率

對一般的迴歸方程本身並不具有這種限制,線性迴歸方程

邏輯斯蒂迴歸:家庭買私家車的概率

將會超出這個限制範圍。

3.4

特殊問題的解決辦法

對於普通的線性迴歸所具有的上述3個問題,雖然可以找到一些相應的解決辦法。例如,對於誤差項不是正態的情形,最小二乘法求得的無偏估計量在絕大多數情況下是漸近正態的。因此,當樣本容量較大時,未知參數的估計與誤差項假設為正態分佈時的方式相同;對於異方差情況,可以用加權最小二乘法來處理;對受迴歸方程限制的情況,對模型範圍內的x來說,可以通過確保擬合模型的因變量均值不小於0和不大於1來處理。但是這些並不是從根本上解決問題的辦法,為了從根本上解決問題,我們需要構造一個自動滿足以上限制的模型來處理。

四、引入Logistic模型,解決上述問題

第一,迴歸函數應該改用限制在[0,1]區間內的連續曲線,而不能再沿用直線迴歸方程。

限制在[0,1]區間內的連續曲線有很多,例如所有連續型隨機變量的分佈函數都符合要求,我們常用的是Logistic函數與正態分佈函數。Logistic函數的形式為 :

邏輯斯蒂迴歸:家庭買私家車的概率

第二,因變量

邏輯斯蒂迴歸:家庭買私家車的概率

本身只取0、1兩個離散值,不適於直接作為迴歸模型中的因變量。

由於迴歸函數

邏輯斯蒂迴歸:家庭買私家車的概率

表示在自變量為

邏輯斯蒂迴歸:家庭買私家車的概率

的條件下

邏輯斯蒂迴歸:家庭買私家車的概率

的平均值,而

邏輯斯蒂迴歸:家庭買私家車的概率

是0-1型隨機變量,因而

邏輯斯蒂迴歸:家庭買私家車的概率

就是在自變量為

邏輯斯蒂迴歸:家庭買私家車的概率

的條件下

邏輯斯蒂迴歸:家庭買私家車的概率

等於1的比例。這提示我們可以用

邏輯斯蒂迴歸:家庭買私家車的概率

等於1的比例代替

邏輯斯蒂迴歸:家庭買私家車的概率

本身作為因變量。

五、Logistic模型實戰

數據:某地區45個家庭數據的調查,其中y是分類變量(是否有私家車,1表示有,0表示沒有)x 表示家庭年收入單位萬元,根據這些數據建立Logistic迴歸模型,估計年收入15萬元的家庭買私家車的可能性。

x y
15 1
20 1
10 0
12 1
8 0
30 1
6 0
16 1
22 1
36 1
7 0
24 1
6 0
11 0
18 1
25 1
12 0
10 0
15 1
7 0
22 1
7 0
16 1
18 1
21 1
7 0
9 0
6 0
20 1
16 1

12 0
15 1
9 0

基於R語言操作如下:

 1> library(readxl)
2> data3.1 3
4> glm.logit 5Warning message:
6glm.fit:擬合機率算出來是數值零或一
7> summary(glm.logit)
8
9Call:
10glm(formula = y ~ x, family = binomial, data = data3.1)
11
12Deviance Residuals:
13 Min 1Q Median 3Q Max
14-1.21054 -0.05498 0.00000 0.00433 1.87356
15
16Coefficients:
17 Estimate Std. Error z value Pr(>|z|)
18(Intercept) -21.2802 10.5203 -2.023 0.0431 *
19x 1.6429 0.8331 1.972 0.0486 *
20---
21Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
22
23(Dispersion parameter for binomial family taken to be 1)
24
25 Null deviance: 62.3610 on 44 degrees of freedom
26Residual deviance: 6.1486 on 43 degrees of freedom
27AIC: 10.149
28
29Number of Fisher Scoring iterations: 9

根據R計算我們得到迴歸模型函數:

邏輯斯蒂迴歸:家庭買私家車的概率

計算

邏輯斯蒂迴歸:家庭買私家車的概率

邏輯斯蒂迴歸:家庭買私家車的概率

的概率:

1> yp2> p.fit3> p.fit
41
50.9665418

有R計算結果可知:年收入15萬的家庭買私家車的概率為97%。

我們用Logistic迴歸模型成功地擬合了因變量為定性變量的迴歸模型,但是仍然存在一個不足之處,就是異方差性並沒有解決,迴歸模型不是等方差的,應該對模型式用加權最小二乘估計。權重係數:

邏輯斯蒂迴歸:家庭買私家車的概率

,優化模型的路漫漫。

邏輯斯蒂迴歸:家庭買私家車的概率

往期精彩:

  • R語言:data.table語句批量生成變量
  • 【R語言實用技巧】隨機排序、隨機抽樣與分層抽樣
  • R語言中文社區2018年終文章整理(作者篇)
  • R語言中文社區2018年終文章整理(類型篇)
邏輯斯蒂迴歸:家庭買私家車的概率

回覆 爬蟲 爬蟲三大案例實戰

回覆 Python 1小時破冰入門

回覆 數據挖掘 R語言入門及數據挖掘

回覆 人工智能 三個月入門人工智能

回覆 數據分析師 數據分析師成長之路

回覆 機器學習 機器學習的商業應用

回覆 數據科學 數據科學實戰

回覆 常用算法 常用數據挖掘算法


分享到:


相關文章: