论文部分内容阅读
时间序列数据泛指随时间或空间有序变化的数据,这些数据往往采用等时间或等空间间隔测量。时间序列数据广泛应用于商业、经济、地质、生物医药、太空探测等诸多科学工业领域中。如何充分有效地管理和利用这些时间序列数据,从中发现隐藏的规律和知识,受到广泛关注。由于时间序列数据具有高维性、噪声干扰及波动性等特点,因此时间序列数据挖掘成为数据挖掘中的一个重要研究方向。
时间序列数据挖掘大体可以分为时间序列表示和挖掘两个阶段。时间序列表示是提取时间序列的主要特征,在更高层次上对时间序列重新描述。挖掘是指对表示后的时间序列做进一步的数据挖掘工作。本文主要在时间序列表示和相似搜索方面做了相关研究。本文主要工作为如下几个方面:
1.时间序列的表示是时间序列数据挖掘研究的基础。重要点的分段表示法(IP)是目前应用最为广泛的时间序列特征提取方法之一,具有较好的数据压缩和去除噪声能力,但参数的选择对时间序列的近似效果有很大的影响。基于多分辨率的重要点检索分段方法(MIP)也是一种时间序列特征提取方法,该方法能很好的近似时间序列,但运行效率比较低。为了改进以上两种方法的不足,我们提出了一种改进的序列分段的方法:基于重要点的多分辨率检索表示法。针对时间序列的benchmark做了大量的实验,从误差,压缩率、效率等方面来衡量本文方法和前面两种方法。实验表明,与基于重要点的分段方法相比,MRIP方法能对时间序列进行更好的压缩,误差更小,有更好的近似效果;与基于多分辨率的重要点检索分段方法相比,在近似效果相当的情况下,运算效率更高。
2.基于BIRCH聚类特征及凝聚层次聚类的思想和时间序列数据相邻的点有内在的依赖关系,本文提出了基于聚类特征的时间序列划分算法(Segmentationalgorithm for time series based on BIRCH Clustering,简称SBC)。对时间序列的benchmark做了相关划分实验,并和经典的SW划分算法进行实验对比。通过实验结果分析,本文划分方法能达到很好的划分性能。
3.采用基于重要点的多分辨率检索表示法提取特征模式后,对提取的模式序列提出了基于斜率模式的动态时间弯曲距离度量(Slope DTW)。采用基于BIRCH聚类特征的时间序列划分算法提取特征模式后,对提取的模式序列介绍了基于均值模式的动态时间弯曲距离度量(Mean_DTW)。对时间序列搜索进行大量实验,本文提出和介绍的距离度量有很好的过滤性能。与全序列DTW搜索相比,只对极少量满足过滤条件的序列与待搜索序列进行全序列DTW距离计算,在时间性能上有很大的提高。