论文部分内容阅读
时间序列是具有时间顺序的数据点集合,是一种普遍存在的数据形态,例如心电图、股票价格的变化等大量与时间相关的数据。时间序列聚类是将相似的时间序列划分为同类,时间序列聚类分析可以从中提取出隐藏着的与时间相关的有价值的信息,帮助人们进行决策,在医疗健康、股票投资、异常监测等领域有着重要的应用价值。由于时间序列数据具有高维、不等长、时序等特性,无法直接计算时间序列之间的距离,因此,传统的静态聚类算法无法直接适用于时间序列。近十多年来,众多的研究者和技术人员致力于时间序列聚类算法的研究,主要聚焦于两个方面:可以高效降维的时间序列数据重表示方法和精准的时间序列相似性度量方法。目前虽然已经产生一些有效的时间序列聚类算法,但是还存在以下缺陷:(1)时间序列重表示算法在降低维度的同时,损失了过多的原始序列信息,造成算法精度的下降;(2)时间序列相似性度量方法无法很好的估算时间序列之间的距离,精度较低;(3)现有的较好的相似性度量方法具有较高的时间复杂度,效率较低。因此,研究新型高效的时间序列聚类算法具有十分重要的理论价值和现实意义。论文选题来源于国家自然科学基金项目。为了克服现有时间序列聚类算法的缺陷,作者深入研究目前最好的时间序列聚类算法,并针对它们的缺陷,提出了两个高效的时间序列聚类算法。论文主要工作及创新点如下:(1)提出了一种高效的时间序列重表示方法,在降低维度的同时,极大程度地保留原始序列信息,并且该方法提取了原始时间序列的形状特征,可以提高相似性度量方法的精度;(2)提出了时间序列同步位点的概念以及其判别方法。同步位点可以捕获时间序列曲线的宏观形状,基于同步位点,提出了一种高效的时间序列相似性度量方法,该方法将全局相似性与局部相似性相结合,更好地计算时间序列之间的相似度;(3)针对时间序列存在无用前缀,降低算法的精度问题,提出了一种高效无用前缀删除方法。基于上述所提出的时间序列的重表示和无用前缀删除方法,提出了一种新的高效的时间序列聚类算法TSCEFAD算法;(4)最长公共子序列算法是目前最好的时间序列相似性度量方法之一,但现有的算法具有较高的时间复杂度,效率很低,作者设计了一种更为高效的最长公共子序列算法用于计算时间序列之间的相似度,并基于所提出的高效的最长公共子序列算法,提出并设计了一种新型高效的时间序列聚类算法TSCELCS算法。在目前最权威的开源时间数据集UCR上,本文设计的两个算法分别与同类最好的算法进行了仿真实验对比。实验结果表明:本文设计的两个算法可以有效地对时间序列数据集进行聚簇,在时间和精度上优于现有的最好的时间序列聚类算法。作者今后的努力方向是进一步提高本文算法的时间和精度性能,并努力将本文提出的算法应用于多变量时间序列聚类问题中。