论文部分内容阅读
实际生产过程中会产生大量时间序列数据,时间序列分析能为实际生产活动提供决策依据。本文对以下问题提出了相应解决办法:1.高维不完整时间序列学习建模与预测分析问题。提出了一个高维不完整时间序列频率聚类预测方法WFDynaMMo. WFDynaMMo方法首先用小波对高维时间序列数据进行去噪,然后用离散傅里叶变换(DFT)和窗口策略提取去噪后的高维时间序列数据的频率特征,并根据去噪后的高维时间序列各维子序列之间的频率相关度对原始输入时间序列进行聚类,最后对聚类结果中的每个类独立使用DynaMMo分析。在仿真数据集和实际数据集上的实验表明,不高于10%的数据丢失量对利用频率相关度聚类精度的影响非常小,WFDynaMMo方法比DynaMMo算法有更高的精度。2.海量时间序列分布式分析问题。本文中提出了2种分析算法:MR-LDS和MSAX-MR-LM.(1) MR-LDS本文中基于多维时间序列并行分析算法CAS-LDS提出一种基于MapReduce计算模型的改进算法MR-LDS。MR-LDS算法中使用Mapper节点将海量时间序列切分为若干个独立的子序列,并在Reducer中对这些子序列相应的子模型进行独立分析,最后合并所有子模型分析结果得到时间序列整体的近似参数。采用实际数据集对该方法的有效性进行验证。(2) MSAX-MR-LM本文中提出一个基于MapReduce计算模型与统计语言模型的海量时间序列分布式分析算法MSAX-MR-LM。MSAX-MR-LM基于MapReduce计算模型,用多维时间序列符号化方法MSAX对多维时间序列进行符号化处理,然后使用统计语言模型对多维时间序列数据进行统计建模。在实际数据集上的实验表明,该方法能适应海量时间序列分析的需要,并且能很好地支持实时时间序列分析。分别采用MR-LDS和MSAX-MR-LM算法对实际数据集学习建模实验后,得出以下结论:1)大数据集分析精度(a) MR-LDS在数据集较小(时间长度<104)时,能获得更高的精度。(b) MSAX-MR-LM在数据集较大(时间长度>107)时,能获得更高的分析精度。2)大数据集分析速率(a) MR-LDS算法的分析时间随着数据集规模增长呈指数增长趋势。(b) MSAX-MR-LM算法的分析时间与数据集规模大致呈线性关系。3)实时分析(a) MR-LDS学习得到的模型参数在新增数据(实时数据)时无法重用,导致重复计算,不能实现实时学习建模分析。(b) MSAX-MR-LM算法学习得到的统计语言模型在新增数据(实时数据)时可以重用,能实现实时学习建模分析。