在本篇文章中，主要是介绍利用波士顿房价数据来掌握回归预测分析的一些方法。通过本篇文章你可以学习到：

1、可视化数据集的重要特征

2、估计回归模型的系数

3、使用RANSAC拟合高鲁棒性回归模型

4、如何来评价回归模型

5、多项式回归

6、决策树回归

7、随机森林回归

数据集下载地址：https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data

数据特征说明：https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names

掌握数据的基本情况

回归预测(RANSAC、残差图、多项式回归、随机森林）

一、数据特征的可视化

探索性数据分析(Exploratory Data Analysis，EDA)：是机器学习模型训练之前的一个重要步骤，通过借助python第三方库pandas、seaborn来绘图，可以帮助我们分析和发现数据中的异常情况、数据的分布情况，以及特征将的相互关系。

由于屏幕大小关系，我们选择四个自变量和因变量进行分析，indus(房屋所在镇无零售业务区域所占比例)，nox(一氧化氮浓度，每千万分之一)，rm(每处寓所的平均房间数)，lstat(弱势群体人口所占比例)，medv(房屋平均价格，单位1000美元)。

1、绘制散点图

#选择需要绘制散点图的列名
cols = ["lstat","indus","nox","rm","medv"]
#通过seaborn绘制散点图
sns.pairplot(data[cols],size=1.5)
plt.show()

回归预测(RANSAC、残差图、多项式回归、随机森林）

通过绘制特征的散点图，我们可以发现变量之间的关系。对角线是变量的直方图，可以看出特征的分布情况。通过medv(房价)的直方图可以发现，房价服从正态分布，但是在大于40的部分包含了几个异常值。通过rm(房间数)和medv(房价)的散点图，第四行第五列，呈线性分布。而其他的三个变量与mdv(房价)呈一个非线性分布。

注意：训练一个线性回归模型并不需要自变量或者因变量呈正态分布，正态假设仅适用于某些统计检验和假设检验。

2、系数矩阵

除了通过变量之间的散点图来寻找变量之间的关系，还可以通过变量之间的相关系数来发现变量的关系。相关系数矩阵，常用的有皮尔逊相关系数(Pearson product-moment correlation coefficient，Pearson's r)的方阵，通过它可以来衡量两个特征之间的线性关系。皮尔逊相关系数的取值在[-1,1]范围内，如果r=1，表示两个变量呈正相关，r=0表示两个变量没有关系，r=-1表示两个变量呈负相关。其实，相关系数矩阵就是标准化的协方差矩阵。

回归预测(RANSAC、残差图、多项式回归、随机森林）

通过相关系数矩阵可以发现，lstat与medv的相关性最大(-0.74)，其次就是rm与medv的相关性最大。通过之前的散点图，也可以说明这一点。

二、常用的线性回归算法

分析rm与medv的线性关系

1、线性回归

回归预测(RANSAC、残差图、多项式回归、随机森林）

通过rm与medv数据之间的关系，来拟合一条直线。通过rm与medv的点集可以发现，在周围存在着很多的异常值，异常值对于线性回归模型具有很严重的影响。下面通过RANSAC算法，清除异常值。

2、RANSAC拟合高鲁棒性回归

RANSAC(Random Sample Consenus)，它是根据一组包含异常数据的样本数据集，计算出数据的数学模型参数，得到有效样本数据的算法。使用数据的一个子集(内点,Ran)来进行回归模型的拟合。

RANSAC算法的工作流程如下：

1、从数据集中随机抽取样本构建内点集合拟合模型。

2、使用剩余的数据对上一步得到的模型进行测试，并将落在预定公差范围内的样本点增加到内点集合中。

3、使用全部的内点集合数据再次进行模型的拟合。

4、使用内点集合来估计模型的误差。

5、如果模型性能达到了用户设定的特定阈值或者迭代的次数达到了预定的次数，则算法终止，否则重复从第一步开始。

回归预测(RANSAC、残差图、多项式回归、随机森林）

三、线性回归模型性能的评估

1、残差图

通过绘制残差图能够直观的发现真实值与预测值之间的差异或垂直距离，通过真实值与预测值之间的差异来对回归模型进行评估。残差图可以作为图形分析方法，可以对回归模型进行评估、获取模型的异常值，同时还可以检查模型是否是线性的，以及误差是否随机分布。

回归预测(RANSAC、残差图、多项式回归、随机森林）

最好的模型预测结果的残差为0，在实际应用中，这种情况是不可能发生的。但是，对于一个好的模型，我们期望误差是随机分布的，同时残差也是在y=0水平线附近波动。通过残差图也可以发现异常值，偏离y=0比较远的点。

2、均方误差(MSE)

均方误差(Mean Squared Error，MSE)：真实值与预测值差的平方和的平均值，计算公式如下

回归预测(RANSAC、残差图、多项式回归、随机森林）

除了均方误差之外，还可以通过绝对值误差来衡量模型的性能。

3、决定系数R^2

在某些情况下决定系数(coefficient of determination)R^2非常重要，可以将其看成一个MSE标准化版本，R^2是模型捕获响应方差的分数。对于训练集来说，R^2的取值范围为[0,1]，对于测试集来说，R^2取值可能为负。如果R^2越接近与1表明其模型的性能越好。R^2计算公式如下：

回归预测(RANSAC、残差图、多项式回归、随机森林）