论文部分内容阅读
时间序列的相似度(Similarity of time series)计算是时间序列数据挖掘领域中的基本和关键问题之一,为时间序列的分类(Classification)、相似度搜索(Similarity Search)、聚类(Clustering)、异常点检测(Outlier Detection)、模式识别(Patter Discovery)及时间序列可视化等过程,提供了基本的工具与研究手段。在基于距离的时间序列相似度度量的方法中,欧氏距离和动态时间弯曲距离的应用最为广泛,但这两种方法的固有缺陷和不足限制了它们的应用范围。 本文研究时间序列相似度度量相关问题,主要工作如下: 1.综述了时间序列相似度计算经典方法及其特点,归纳了时间序列相似度计算和分类算法目前存在的问题,针对其不足,应用形态相似距离评估时间序列相似度,并分析证明了其特点和性质。 2.应用时间序列的特征表示方法,对时间序列数据进行了自底向上的分段线性表示,分别采用欧氏距离、动态时间弯曲距离和形态相似距离在标准数据集上完成了相似度计算,从计算速度和准确度两方面对计算结果进行分析和对比。 3.针对最近邻分类器在海量数据分类中存在速度较慢的问题,通过对训练样本进行聚类压缩以及对压缩后训练样本的识别范围分析,对经典最近邻分类算法进行了改进,在UCI和UCR标准时间序列数据集上进行了分类实验,验证了该方法的可行性和有效性。