论文部分内容阅读
时间序列是包含一系列随时间变化的数据的序列,它反映了某种属性值随时间变化的特征。在金融、经济、自然科学、信息工程等重要领域,每天都会产生大量的时间序列,因此如何有效地处理这些数据并挖掘其背后隐含的规律和知识,成为人们日益关注的问题,随着研究的深入,许多经典的问题得到了有效地解决。而近年来,随着技术的发展,出现了许多复杂庞大的高维时间序列数据库,然而其带来的计算复杂度的激增,使得大部分能够成功地应用于一维时间序列的挖掘技术,都无法应用在高维时间序列的挖掘上。针对该问题,本文首先对时间序列数据挖掘领域的研究进行了系统的文献总结,分析了时间序列及高维时间序列的分类、特点和研究现状。之后,阐述了该领域研究的几个主要问题,即相似性度量、快速检索、主旨模式挖掘,并针对每个问题,对主流方法的特点、适用范围及优缺点进行了详细的分析与说明。在此基础上,本文针对当前该领域的两个热点问题,即序列的快速检索和主旨模式挖掘,以人体运动捕捉数据作为具体分析对象,进行了深入的研究,分别提出了有效的解决方法,并通过相关实验验证了算法的有效性。(1)在序列的快速检索方面,通过充分挖掘人体运动的特征,本文提出了两个新的模型:借助于运动中产生的能量对运动进行描述的能量模型和利用相关系数描述人体运动中关节间协作状态的运动协调性模型。利用这两个模型,可以从人体运动中提取出能够有效地体现出其运动特征的低维度索引序列。之后,利用支持向量机对该低维索引序列进行粗分类,从而最大程度地避免了与查询序列不相似的序列参与到时间复杂度较高的精确比较中。最后,在经过粗分类的候选序列集合上,利用基于DTW距离进行度量和Keogh索引下界进行剪枝的线性检索算法精确地度量输入运动和候选动作之间的相似性。(2)在主旨模式挖掘方面,针对现有算法易受噪声干扰的问题,本文提出了一种基于最长公共子序列距离的主旨模式挖掘算法。但该度量方法具有复杂度较高的问题,因此,在搜索过程中,该算法采用了基于子序列距离判别的策略进行了剪枝。之后,采用了层次化聚类的方法将相邻重叠并高度相似的候选模式进行合并,仅保留下能够充分体现序列各部分特征的序列。最后,对于提取出来的非等长候选模式,使用了最小描述长度原则求得其相关权重,并据此选择出现频率最高、最能体现原时间序列特征的主旨模式。