论文部分内容阅读
时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列,在经济、金融、科学观测和工程等各个领域都广泛存在。如何有效地管理和利用这些历史时间序列,发现这些数据背后隐含的规律和知识,是人们广泛关注的问题。与传统时间序列分析提出假设然后进行验证的数据处理方法不同,时间序列数据挖掘适合发现型任务,能够从大量历史数据中挖掘出潜在的、未知的、有价值的知识。本文以面向相似性的时间序列数据挖掘为主题,从时间序列的相似性研究出发,研究了时间序列的表示方法、时间序列的相似性度量、相似性搜索和索引、时间序列数据挖掘的原型系统等问题。本文的主要研究工作和成果概括如下:(1)提出了分段极值特征提取的时间序列表示方法。本文在分析和比较了原有的各种时间序列表示方法后,以分段线性表示法为基础,参考界标模型的思想,提出了分段极值特征提取的时间序列表示方法,克服了很多其他时间序列表示方法都无法同时客观地描述时间序列的整体趋势和局部特征的矛盾。本文并以实验数据验证了该算法的正确性和高效性。(2)提出了分段极值DTW距离的相似性度量方法。本文在立足于几种典型的时间序列相似性度量方法基础上,通过各种方法的分析比较与借鉴,提出了一种基于分段极值DTW距离的时间序列相似性度量方法,并通过实验验证了该算法的有效性与准确性。与欧氏距离相比,该方法有更广的适用性,能够对发生时间轴伸缩和弯曲的序列进行相似性度量,并且保证了度量的准确性;与传统的DTW距离算法相比,分段极值DTW距离算法在计算效率上得到了大大提高,克服了DTW距离算法计算量大的问题,这也为时间序列数据挖掘的实现奠定了基础。(3)研究了基于DTW距离的时间序列相似性搜索。为了能够在海量的时间序列数据库中快速、准确地进行相似性搜索,本文首先运用多维空间索引结构R~*-树对预处理过的时间序列进行索引,以此提高了相似性搜索的效率。在此基础上,以DTW距离作为相似性度量方法,保证了度量的鲁棒性。最后通过R~*-树的索引查找来实现时间序列的相似性搜索。本文同时以三种典型的相似性搜索算法证明了在时间序列数据库中进行全序列匹配搜索和子序列匹配搜索的可行性。(4)提出了一个集成的时间序列数据挖掘原型系统的结构模型。时间序列分析系统在许多领域中都有很强的应用价值,在分析比较了以往的时间序列分析系统和工具的功能特点后,提出了一个集成的时间序列数据挖掘原型系统的结构模型,并阐述了该原型系统的具体应用。