之前已经给大家推送了一篇文章——时间序列分析 ,在这篇文章中通过语音的方式介绍了时间序列分析的简单概念,不了解时间序列分析的可以去看这篇文章。
2月底我在网易云课堂新上线了《STATA统计分析》课程,昨天新录制了一个时间序列分析的案例,增补到课程里面。在该案例中,讲解了如何使用 ARIMA模型,回归模型,非季节性Holt-Winters平滑,对数-ARIMA模型这四种方法来预测中国未来GDP走势,本文通过文字的方式简单介绍一下其中ARIMA建模的过程,这四种方法完整建模过程以及建模效果的评估,可点击文末阅读原文查看课程。在【时间序列分析】章节,课程小节名称为案例【案例1-中国未来GDP预测】
一 、数据预处理
首先,来观察一下中国GDP的增长曲线:该曲线表明,中国的GDP增长大致呈现出一种指数增长趋势,很明显这不是一个平稳的时间序列,在时间序列分析这篇文章中,已经介绍过,时间序列建模,一般要求,序列是平稳的。
对于这种指数型增长的时间序列,可以使用对数转换+一阶差分或者直接使用二阶差分的方式转换成平稳序列。
使用对数转换+一阶差分转换后的时间序列图:
直接进行二阶差分转换后的时间序列图:
通过观察图形,发现转换后的序列趋势基本消除,只是呈现出一定的波动性,为更加严谨,需要使用单位根检验,这样可以通过统计检验的形式严格检验转换后的序列是否为平稳序列。下图中,给出了对gdp原始变量以及对
二阶差分转换后的变量进行单位根检验的结果,gdp原始变量的检验结果p值为1,表明完全接受原假设(单位根检验的原假设是:被检验序列是一个包含单位根的非平稳序列);对数转换再差分的变量检验结果的p值为0.0000,小于0.05,拒绝原假设,表明转换后的序列已经是一个平稳序列了。二、建立ARIMA模型
此处介绍对二次差分后的变量进行建模的过程。对上述二次差分处理后的时间序列绘制自相关图以及偏自相关图。
自相关图
偏自相关图
通过这里的自相关图和偏自相关图,很难确定合适的arima模型参数(因为自相关图和偏自相关图的模式不明显),我们可以尝试不同的参数,并使用赤池信息准则,也就是根据AIC统计量判断模型好坏,取AIC取值最小的模型最为最终模型。
这里我通过计算得到如下的一批模型以及它们的AIC取值,可以发现模型 arima(2,2,1) 是此处的最优模型(因为其AIC取值最小)。
模型 AIC
arima(0,2,1) 1294
arima(0,2,2) 1279
arima(0,2,3) 1273
arima(1,2,0) 1297
arima(2,2,0) 1282
arima(3,2,0) 1276
arima(1,2,1) 1290
arima(2,2,1) 1270
arima(2,2,2) 1271
三、使用上述模型进行预测
得到arima模型后,将利用此arima模型进行预测,stata中使用arima模型只能预测未来一期的数值。 计算预测值,注意需要在后面加上选项“y”,此处我们建立的arima模型包含差分的部分,不加上“y”,预测得到的结果是二阶差分作为因变量而得到的预测值。
predict y1,y
label variable y1 "arima"
预测得到的2017年的GDP数值为795095.19(亿元),发这篇文章时,2017年GDP统计结果还未公布,公布后,大家可以对比一下。课程中一共讲解了4种模型,观看课程的同学也可以对比一下这四种模型,谁的预测效果更好。
此处将建立的arima模型的预测效果用图形展示出来:发现吻合度还是很高的。
四、残差的检验
下面这张图展示的是课程里面演示的4种预测方法所得结果的残差:可以发现残差基本是平稳序列,且就残差来看,建立的arima模型是最优的。
限于篇幅,本文主要给出的是建模思路以及一些关键要点,详细代码,建模原理,操作细节等内容,请点击阅读原文查看课程的【时间序列分析】章节,其中案例1-中国未来GDP预测 对应于本文的内容。作为收费课程,其内容肯定是比此处的公益性推文内容要更加丰富的。
閱讀更多 數據分析與可視化 的文章