时间序列预测技术综述

时间：

　　摘要：总结了时间序列发展过程，从传统时间序列预测方法和现代时间序列预测方法两个方面深入分析了几种经典的预测模型和预测方法，并指出了其优缺点。然后对时间序列预测方法未来的发展做了展望。

　　关键词：时间序列;预测;神经网络;ELM

时间序列预测技术综述

　　0 引言

　　时间序列是指对同一现象观测或记录到的一组按时间顺序排列起来的统计数据 [1]，通过对时间序列进行编制和分析，根据时间序列所反映出来的发展过程、方向和趋势，进行类推或延伸，借以预测下一段时间或以后若干年内可能达到的水平，这种方法称为时间序列预测技术。时间序列预测技术在市场需求预测、发电预测、股票走势预测、区域降水量预测等经济、工程和自然科技等领域，具有重要意义。

　　本文在国内外专家学者对时间序列预测技术研究的基础上，综述了一些当前应用较为广泛的预测模型和预测方法，其中包括AR 模型，ARIMA 模型、神经网络和深度学习等，并相应地给出了简要的介绍，同时分析了这些方法的特点和不足，总结了当前时间序列预测技术所面临的问题，探讨了该技术在今后的发展中需要重点解决的关键问题和未来发展趋势。

　　1 传统的时间序列预测方法

　　7000 多年前，人们按照时间的顺序把随机事件变化发展的过程记录下来，构成一个时间序列，对时间序列进行观察、研究，通过直观的数据比较或绘图观测，寻找序列中蕴含的发展规律，这是早期的描述性时序分析。随着研究领域的不断拓广，在一些随机性较大的情况下，这种描述性时序分析不再适用，学术界开始利用数理统计学原理分析时间序列。

　　1927 年，英国统计学家 Yule 在研究太阳黑子时提出的自回归模型(AR 模型)奠定了时间序列预测学科的基础[2]。在自回归模型(AR 模型)的启发下，另一位数学家瓦尔格(Walker)在 1931 年先后建立了滑动平均模型(MA模型)和自回归滑动平均模型(ARMA 模型)。针对非平稳过程的时间序列数据， 20 世界 60 年代初，科学家们提出了许多经济预报方法、变差分方法和指数加权滑动平均等方法，逐步形成了较为成熟的求和自回归滑动评价模型(ARIMA 模型)。

　　1.1 AR 模型

　　AR模型是自回归模型的简称，从回归分析中的线性回归发展而来，用于处理时间序列的线性预测。其模型表达为：

　　上式记为：AR(p)。其中：Xt 为预测值;c 为常数项;t 为随机变量平均数等于 0，标准差等于的随机误差值;对于任何的 t 都不变。

　　时间序列预测技术综述相关期刊推荐：《信息通信》杂志是经国家新闻出版总署批准，面向全国公开出版发行的科技类学术期刊，拥有国际国内统一刊号(ISSN-1673-1131，CN 42- 1739/TN)。本刊创刊于1987年，大16开，双月刊，为全国创办较早的专业期刊，曾多次获得国家科技期刊各类奖项。目前，共设有：电子与信息科学、信息技术(计算机技术，互联网技术，自动化和传感技术)、通信工程、软件理论与方法、信息系统及应用、通信运营、信息管理、网络与资源建设、信息传播、信息化教育、电子政务及商务(含物联网)、产业论坛等栏目。

　　自回归模型用自身的变量序列来进行预测，所需变量少，但会受到一定的限制，要求变量必须自相关，且自相关系数 >0.5 才可使用，否则预测结果会极不准确。

　　1.2 MA 模型

　　MA模型是滑动平均模型的简称，常用于模型参量法谱分析，是现代谱估计中常用的模型。其模型表达式为：

　　上式记为：MA(P)。其中：Yt 为预测值;t 为误差值;i 为加权系数;p 为阶数。

　　使用 MA 模型进行预测能有效解决突然波动点对预测结果的影响，但在应用 MA 模型时也存在着较大的问题：加大滑动平均法的期数会使平滑波动效果更好，但会使预测值对数据实际变动更不敏感;滑动平均值并不能总是很好地反映出趋势，预测值总是停留在过去的水平上而无法预计会导致将来更高或更低的波动;滑动平均法要由大量的过去数据的记录。

　　1.3 ARMA 模型

　　ARMA 模型是自回归滑动平均模型的简称，由自回归模型(AR 模型)和滑动平均模型(MA 模型)组合而成。常用于研究消费行为模式变迁研究、具有季节变动特征的销售量和市场规模的预测;也被用于模型参量法高分辨率谱分析，具有较精确的谱估计和优良的谱分辨性能。ARMA 模型的预测值是现在和过去的误差或冲击值以及先前序列的线性组合。其模型可表达为：

　　上式记为 ARMA(p，q)。其中：p 和 q 分别为自回归滑动平均的阶数;aj称为自回归系数;bj称为滑动平均系数;Xt为预测值;Xt-j 为时间序列值;t-j 为误差值或冲击值。

　　1.4 ARIMA 模型

　　ARIMA 模型是自回归积分滑动平均模型的简称，是上世界 70 年代初，由博克思(Box)和詹金斯(JenKins)提出的著名时间序列预测方法。ARIMA 模型是在 ARMA 模型的基础上增加了有限次的差分，将非平稳时间序列转化为平稳时间序列，然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归，进而建立模型。ARIMA 模型根据原始序列是否平稳以及回归中所包含部分的不同，包括自回归过程、滑动平均过程、自回归滑动平均过程以及ARIMA 过程。ARIMA 建模过程与ARMA相同，仅仅是增加了d次差分，可将ARIMA 模型记为：ARIMA(p，q，d)。

　　传统的时间序列建模基本步骤是：①用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。②根据动态数据作相关图，进行相关分析，求自相关函数。③辨识合适的随机模型，进行曲线拟合, 即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列，可用趋势模型和季节模型加上误差来进行拟合。对于平稳时间序列，可用通用 ARMA 模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合 ARMA 模型等来进行拟合。当观测值多于 50 个时一般都采用 ARMA 模型。对于非平稳时间序列一般采用 ARIMA 模型。

　　2 现代的时间序列预测方法

　　上世纪 80 年代，神经网络技术的发展使得基于神经网络的时间序列预测技术广泛应用在非线性、非平稳的处理中。在文献[3]中，学者付晓健等人结合 ARMA 时间序列预测模型和 BP 神经网络预测模型的优点，建立了 ARMA-BP 神经网络混合模型，采用构造性神经网络模型得出的类别值对统计时间序列模型的预测值进行修正，提高了风电预测的精度和效率。在文献[4]中，王维等人通过分析算法本身和训练仿真过程，解决了 BP 算法在实际应用和仿真过程中，由于算法本身的限制和不足，带来的网络训练过程中程序异常中止、训练时间过长、仿真精度不高等问题，并在 Matlab 仿真环境下的实际仿真过程，验证了改善效果。在文献[5]中，刘志刚等人提出了一种基于过程神经元网络的时间序列预测方法，采用了双链结构的量子粒子群对过程神经元网络进行训练，以Mackey-Glass 混沌时间序列预测为例进行了仿真实验，结果表明该方法优于普通的神经网络。在文献[6]中，聂侥等人针对非线性复杂时间序列在线预测问题，提出了一种基于过程神经网络模型的在线预测方法。并建立了双并联离散过程神经网络模型，采用递推极限学习算法对过程神经网络隐层到输出层的权值进行相应的更新，给出了具体的过程神经网络学习算法与权值更新机制，并以混沌时间序列与液体火箭发动机的状态预测为例对方法进行了验证，结果表明该方法在预测精度和适应能力上较单一的离线模型有显著提高，可以为非线性复杂时间序列在线预测问题提供一种有效的解决方法。

　　90 年代以后，针对神经网络缺乏一般性、普遍适用的问题，学者 Vapnik 提出了基于统计学习理论的学习方法支持向量机。而后在众多学者的推崇下，发展处理包括 ELM、OSELM 和 SF-ELM 等多种形式的算法。文献[7]中，黄光斌等人提出了一种新颖的单隐层前馈神经网络——极端学习机，简称 ELM。ELM 将传统的神经网络参数训练的迭代调整过程转化为求解线性方程组，解析求解最小范数的最小二乘法作为网络权值，用一次计算取代了多次迭代的过程，显著地提升了 ELM 的训练速度，并在模式识别与回归分析等问题中获得了成功应用。文献[8]中，李明斌等人在 ELM 的基础上提出了一种在线贯序极端学习机，简称 OS-ELM。OS-ELM 给出初始网络权值，在新的训练样本加入训练样本集时，可在初始的网络权值上递推得到。但OS-ELM采取新旧训练样本等权处理，不能突出新训练样本的作用，这会使得网络权值的更新缺乏调整的灵活性，容易增加不必要的计算量。文献[9]中，张弦等人提出了一种具有选择与遗忘机制的极端学习机，简称 SFELM。SF-ELM 更加重视新训练样本的贡献，以遗忘旧训练样本的方式间接突出新训练样本的作用，从而使跟新后的预测模型中来自新训练样本的信息多于就训练样本。相比 OSELM，SF-ELM具有更快的在线训练速度和更高的在线预测精度，更加适用于混沌世界序列在想预测。在文献[10]中，赵仁义等人就模型定阶问题展开了深入讨论，针对适用残差方差图定阶法、自相关函数和偏自相关函数定阶法，F 检验定阶法和最佳准则函数定阶法等进行模型定阶需要步骤繁杂的问题，提出了自动搜索确定模型阶数的方法，并给出了判定准则和流程图。满足与已知数据进行拟合时，相对误差在±10%以内或达到规定的AR模型阶次的上界仍没有满足误差要求，就寻找其中残差平方和最小对应的阶次。 3 结语时间序列预测方法从简单的基于传统统计学的线性回归模型、非线性回归模型，逐渐发展到以神经网络、支持向量机为代表的机器学习方法。同时，研究者基于不同理论基础针对具体不同特性的时间序列也提出了一些其他预测方法。其中，基于统计学习理论的支持向量机方法由于更适合有限样本情况的工程实际问题，成为非线性时间序列预测的主流方法之一，未来将更倾向于组合预测和在线预测的方法。