论文部分内容阅读
时间序列数据挖掘是从大量的时间序列数据集中提取潜在的、有用的知识,据此预测时间序列的未来。本文进行了时序数据挖掘中的相似性和趋势预测研究,主要工作如下:
首先对数据挖掘的基本理论与技术,时序数据挖掘、时序数据相似性搜索、时序数据趋势挖掘的研究现状、存在问题及其根源进行概述,综述性地说明了进行本研究的价值和意义,简述探索性分析方法等本文所涉及的理论、技术和方法。
在此基础上,详细评述时间序列相似性搜索的几种主要近似表示方法和数据变换方法,对这些方法进行分析和比较,总结这些方法的优点和不足,提出目前研究中所忽略的上述方法的准确性、一致性和漏报问题及对相似时间序列的相似程度缺乏度量的共性问题。
借鉴以往研究中对相似性定义拓展的思想,定义了一个衡量时间序列相似程度的指标--相似度,较好地表达了时间序列近似表示的度量问题。分成四种典型情况,对基于近似表示的时序数据相似性搜索的一致性、近似程度影响、ε取值、漏报四个问题进行较深入的研究,推导出相关的定理,较好地解决了上述问题,给出了能克服漏报的四种挖掘算法,最后进行了实例仿真验证。
给出变换空间、变换空间相似、变换后在原始空间的表示、收敛的变换等定义,推导出收敛的变换必不产生漏报的结论。在此基础上,对基于傅立叶变换的方法M-DFT、PAA变换法进行了研究,证明了M-FDT法、PAA变换法具有非漏报特性,并以PAA变换法的挖掘算法进行了实例仿真。
利用人工神经网络和最小二乘法各自在处理非线性关系和线性关系的独特性能,提出基于人工神经网络和最小二乘法的时序挖掘方法,并以具体的时序数据集进行测试,结果表明方法能较好地反映和刻画时间序列的未来趋势。
借鉴探索性分析方法从顶层到底层,从低分辨率到高分辨率,从粗到细的思想对时间序列相似性进行了初步研究。提出将时间序列的相似性分成粗、细分层匹配的方法,利用EMD、PAA方法提取时间序列的趋势进行趋势相似性判定,再对趋势相似的序列逐一进行判别,通过理论推导说明了方法的有效性。