论文部分内容阅读
摘要:本文首先简述了多维时间序列近年来的发展背景,然后具体的分析了其特点和建模的方法,并对其算法做了简单的介绍,最后建立了多维时间序列的AR模型,将多维时间序列应用到具体的在线检测的数据处理中,取得了良好的效果。
关键词:多维时间序列;建模;算法;在线数据
中图分类号:F224 文献标识码:A文章编号:1007-9599 (2011) 20-0000-01
Multi-dimensional Time Series Used in Online Monitoring Data Processing
Chi Xujuan
(HeFei University of Technology,Hefei230031,China)
Abstract:This paper outlines the development of multi-dimensional time series in recent years,the background,then detailed analysis of its characteristics and modeling methods,and its algorithm to do a brief introduction,and finally established a multi-dimensional time series of the AR model,multi-dimensional time series applied to specific data processing in-line inspection and achieved good results.
Keywords:Multi-dimensional time series;Modeling;Algorithm;Online data
一、多維时间序列的定义及特点
多维时间序列分析是一种动态的数据处理方法,其是基于随机过程理论和数理统计的方法,研究随机数据序列遵从的统计规律,以用于解决实际问题。时间序列数据具有一下特点:规模大,短时间内波动频率,噪声干扰严重,非稳态等特点,这就使得在原始时间序列上聚类,时间序列分类,时序模式挖掘等工作效率低下,甚至会影响数据挖掘的准确性和可靠性。
二、多维时间序列算法分析
(一)带受控项的自回归模型(CAR)。优点:融合了时间序列分析和回归分析的优点;缺陷:CAR在实际应用中预测能力较弱,其中的一个主要原因是CAR基于线性进行模型定阶和逐步回归变量筛选获得的模型阶数和保留变量往往并非最优,建立一种非线性的模型定阶和变量筛选方法是非常必要的。
(二)神经网络(BP算法)。优点:具有很好的非线性逼近能力,并广泛应用于非线性时间序列分析或非线性回归分析;缺陷:融合时间序列分析和回归分析的ANN模型却极少见;同时存在过拟合、维数灾难、局部极小、基于经验风险等缺点
(三)GA-BP算法。由于遗传算法具有很强的宏观搜索能力,且能以较大的概率找到全局最优解,所以用它来完成前期的搜索能较好的克服BP算法的缺点,将它与BP算法结合起来,形成一种混合训练算法-GA-BP算法,达到优化网络的目的。
(四)支持向量机(support vector machine,SVM)。它是目前发展最快的机器学习方法,已广泛经应用到非线性时间序列分析或非线性回归分析;缺陷:(1)其核函数的选取是经验性的;(2)有些SVR程序其核函数相应参数的选取也是经验性的;(3)由于采用遍历搜索,因此对大样本而言SVR计算复杂度高;(4)与ANN一样,SVR模型的可解释性较差.
三、多维时间序列应用于在线数据的处理
本文将多维时间序列模型应用于变电站电流互感器的在线数据,其中,频率f、温度t、电压及tan 为AR模型输入,这些数据半小时采集一次。数据处理过程如下:
首先,在观测中取样本值为300进行数据预处理和零化处理,用所得的处理序列建模,得到样本的原始数据;其次,建立的模型参数以最小二乘为依据,依次建立AR(1),AR(2),AR(3)…..四维模型;再次,在四维模型基础上求出各个模型的FPE的值,确定出所需模型的最佳阶数,以此来确定建立的是零均值观测序列服从最佳四维AR模型。
根据建模得到的数据结果显示,其中四维AR模型的最佳阶数为3,它是以tan 、温度、电压、频率为建模物理量依据,即是在线检测数据的零均值观测序列服从AR(3)模型,由此得到模型的参数估计 (i=1,2,3)均为4*4阶矩阵。
为了分析各种相关变量对tan 值的影响,要考虑前l个分量情况下的模型下各种维次最终预报误差的最小值。从实验数据结果可以得知,如果采用四维模型(tan 、温度、电压、频率),所确定的自回归模型阶数为n=3。综合实验数据结果可以得出,温度、电压对tan 的影响较大,频率与tan 间影响关系较小。
为电压基准与电流基准之间的相位差,实验结果显示电压对tan 的大小有明显的影响。通过进行数据整理分析,对上述建模中变换模型次序以tan 、电压、温度建三维AR模型,各种维次考虑前l个分量情况下的模型最终预报误差的最小值得出实验结论,即当考虑tan 和电压建模时,温度的影响可以忽略,然而只关注tan 的相关变化规律时,对于温度影响可不予理会,而电压的影响结果却是十分的显著。
针对电压、温度及其次序变更后进行建模,建模结果表明温度数据的监测与电压无关,而变换次序后对电压与温度建模,其结果表明,考虑电压的变化时,温度有很大的影响。由此可知即在电压的监测数据中已经包含了大量的温度信息,因为温度的影响显著。
由此我们得出,温度对电压,tan 都有很大的影响,如若温度次序靠前,对tan 的影响明显,若温度位于电压之后,则对tan 的影响较小,电压无论在前还是在后,都对 的影响较大。
四、总结
文章论述了多维时间序列的定义及特点,对多维时间序列的建模做了简介的论述,分析了多维时间序列算法,并多维时间序列应用于在线数据的处理从理论上给出多维AR模型的最小二乘估计方法及FPE定阶准则。依据tanδ,电压,温度,频率等四个属性,建立了多维的AR模型。、分别讨论了电压、温度等对tan 的影响。
参考文献:
[1]邓乃扬,田英杰.数据挖掘中的新方法-支持向量机[M].北京:科学出社,2008,224-235
[2]胡隽.数据挖掘在时间序列分析中的研究和应用[D].成都:成都理工大学,2007
[3]王振龙.时间序列分析[M].北京:中国统计出版社,2009
[4]韩家炜,Kamber M.数据挖掘概念与技术[M].北京:机械工业出版社,2005
[5]曹庆文,李宁,董连文.多维时间序列应用于在线监测数据处理[J].高电压术,2004,124-126
关键词:多维时间序列;建模;算法;在线数据
中图分类号:F224 文献标识码:A文章编号:1007-9599 (2011) 20-0000-01
Multi-dimensional Time Series Used in Online Monitoring Data Processing
Chi Xujuan
(HeFei University of Technology,Hefei230031,China)
Abstract:This paper outlines the development of multi-dimensional time series in recent years,the background,then detailed analysis of its characteristics and modeling methods,and its algorithm to do a brief introduction,and finally established a multi-dimensional time series of the AR model,multi-dimensional time series applied to specific data processing in-line inspection and achieved good results.
Keywords:Multi-dimensional time series;Modeling;Algorithm;Online data
一、多維时间序列的定义及特点
多维时间序列分析是一种动态的数据处理方法,其是基于随机过程理论和数理统计的方法,研究随机数据序列遵从的统计规律,以用于解决实际问题。时间序列数据具有一下特点:规模大,短时间内波动频率,噪声干扰严重,非稳态等特点,这就使得在原始时间序列上聚类,时间序列分类,时序模式挖掘等工作效率低下,甚至会影响数据挖掘的准确性和可靠性。
二、多维时间序列算法分析
(一)带受控项的自回归模型(CAR)。优点:融合了时间序列分析和回归分析的优点;缺陷:CAR在实际应用中预测能力较弱,其中的一个主要原因是CAR基于线性进行模型定阶和逐步回归变量筛选获得的模型阶数和保留变量往往并非最优,建立一种非线性的模型定阶和变量筛选方法是非常必要的。
(二)神经网络(BP算法)。优点:具有很好的非线性逼近能力,并广泛应用于非线性时间序列分析或非线性回归分析;缺陷:融合时间序列分析和回归分析的ANN模型却极少见;同时存在过拟合、维数灾难、局部极小、基于经验风险等缺点
(三)GA-BP算法。由于遗传算法具有很强的宏观搜索能力,且能以较大的概率找到全局最优解,所以用它来完成前期的搜索能较好的克服BP算法的缺点,将它与BP算法结合起来,形成一种混合训练算法-GA-BP算法,达到优化网络的目的。
(四)支持向量机(support vector machine,SVM)。它是目前发展最快的机器学习方法,已广泛经应用到非线性时间序列分析或非线性回归分析;缺陷:(1)其核函数的选取是经验性的;(2)有些SVR程序其核函数相应参数的选取也是经验性的;(3)由于采用遍历搜索,因此对大样本而言SVR计算复杂度高;(4)与ANN一样,SVR模型的可解释性较差.
三、多维时间序列应用于在线数据的处理
本文将多维时间序列模型应用于变电站电流互感器的在线数据,其中,频率f、温度t、电压及tan 为AR模型输入,这些数据半小时采集一次。数据处理过程如下:
首先,在观测中取样本值为300进行数据预处理和零化处理,用所得的处理序列建模,得到样本的原始数据;其次,建立的模型参数以最小二乘为依据,依次建立AR(1),AR(2),AR(3)…..四维模型;再次,在四维模型基础上求出各个模型的FPE的值,确定出所需模型的最佳阶数,以此来确定建立的是零均值观测序列服从最佳四维AR模型。
根据建模得到的数据结果显示,其中四维AR模型的最佳阶数为3,它是以tan 、温度、电压、频率为建模物理量依据,即是在线检测数据的零均值观测序列服从AR(3)模型,由此得到模型的参数估计 (i=1,2,3)均为4*4阶矩阵。
为了分析各种相关变量对tan 值的影响,要考虑前l个分量情况下的模型下各种维次最终预报误差的最小值。从实验数据结果可以得知,如果采用四维模型(tan 、温度、电压、频率),所确定的自回归模型阶数为n=3。综合实验数据结果可以得出,温度、电压对tan 的影响较大,频率与tan 间影响关系较小。
为电压基准与电流基准之间的相位差,实验结果显示电压对tan 的大小有明显的影响。通过进行数据整理分析,对上述建模中变换模型次序以tan 、电压、温度建三维AR模型,各种维次考虑前l个分量情况下的模型最终预报误差的最小值得出实验结论,即当考虑tan 和电压建模时,温度的影响可以忽略,然而只关注tan 的相关变化规律时,对于温度影响可不予理会,而电压的影响结果却是十分的显著。
针对电压、温度及其次序变更后进行建模,建模结果表明温度数据的监测与电压无关,而变换次序后对电压与温度建模,其结果表明,考虑电压的变化时,温度有很大的影响。由此可知即在电压的监测数据中已经包含了大量的温度信息,因为温度的影响显著。
由此我们得出,温度对电压,tan 都有很大的影响,如若温度次序靠前,对tan 的影响明显,若温度位于电压之后,则对tan 的影响较小,电压无论在前还是在后,都对 的影响较大。
四、总结
文章论述了多维时间序列的定义及特点,对多维时间序列的建模做了简介的论述,分析了多维时间序列算法,并多维时间序列应用于在线数据的处理从理论上给出多维AR模型的最小二乘估计方法及FPE定阶准则。依据tanδ,电压,温度,频率等四个属性,建立了多维的AR模型。、分别讨论了电压、温度等对tan 的影响。
参考文献:
[1]邓乃扬,田英杰.数据挖掘中的新方法-支持向量机[M].北京:科学出社,2008,224-235
[2]胡隽.数据挖掘在时间序列分析中的研究和应用[D].成都:成都理工大学,2007
[3]王振龙.时间序列分析[M].北京:中国统计出版社,2009
[4]韩家炜,Kamber M.数据挖掘概念与技术[M].北京:机械工业出版社,2005
[5]曹庆文,李宁,董连文.多维时间序列应用于在线监测数据处理[J].高电压术,2004,124-126