学科分类
目录
数据分析

时序模型—ARIMA

ARIMA模型的全称叫做差分整合移动平均自回归模型,又称作整合移动平均自回归模型(移动也可称作滑动),是一种用于时间序列预测的常见统计模型,记作ARIMA(p,d,q)。

ARIMA模型主要由AR、I与MA模型三个部分组成,有关它们的具体介绍如下:

1. AR模型

自回归模型,表示当前时间点的值等于过去若干个时间点的值的回归——因为不依赖于别的解释变量,只依赖于自己过去的历史值,故称为自回归。如果依赖过于最近的p个历史值,称阶数为p,记为AR(p)模型。

AR(p)模型可以表示为:

img

上述公式中,c表示常数项,img被假设为平均数等于0,标准差等于img的随机误差值,img被假设为对于任何的t都不变。整个公式可以用文字叙述为:X的当期值等于一个或数个落后期的线性组合,加上常数项,加上随机误差。

2. I模型

表示的含义是模型对时间序列进行了差分。时间序列分析要求具有平稳性,对于不平稳的序列需要通过一定手段转化为平稳序列,一般采用的手段就是差分。

最简单形式的差分方程如下:

img

上述公式中,d表示差分的阶数,t时刻的值减去t-1时刻的值,得到新的时间序列称为1阶差分序列。

3. MA模型

移动平均模型,表示的含义是当前时间点的值等于过去若干个时间点的预测误差(预测误差=模型预测值-真实值)的回归。如果序列依赖过去最近的q个历史预测误差值,称阶数为q,记为MA(q)模型。

MA(q)模型可以表示为:

img

其中,img是序列的均值,img是参数,imgimg都是白噪声。白噪声是一种功率谱密度为常数的随机信号或随机过程,即此信号在各个频段上的功率是一样的。

ARIMA(p,d,q)模型可以表示为:

img

上述公式中共有p、d、q三个参数,它们表示的含义如下:

(1) p--代表预测模型中采用的时序数据本身的滞后数,即自回归项数。

(2) d--代表时序数据需要进行几阶差分化,才是稳定的,即差分的阶数。

(3) q--代表预测模型中采用的预测误差的滞后数,即滑动平均项数。

ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列,这个模型一旦被识别后,就可以从时间序列的过去值及现在值来预测未来值。

通常,ARIMA模型建立的基本步骤如下:

(1) 获取被观测的时间序列数据;

(2) 根据时间序列数据进行绘图,观测是否为平稳时间序列。对于非平稳时间序列,需要进行d阶差分运算,转化为平稳时间序列。

(3) 对以上平稳的时间序列,分别求得其自相关系数ACF 和偏自相关系数PACF,通过对自相关图和偏自相关图的分析,得到最佳的阶层p和阶数q。

(4) 根据上述计算的d、q、p得到ARIMA模型,然后对模型进行检验。

需要注意的是,对于一个时间序列来说,如果它的均值没有系统的变化(无趋势),方差没有系统变化,并且严格消除了周期性的变化,就称为是平稳的。

点击此处
隐藏目录