论文部分内容阅读
时间序列(time series)挖掘工作是数据挖掘领域的重要研究分支,有非常大的应用价值。时间序列是一种重要的数据对象,在气象学、经济学、地理学以及金融学等许多领域都大量存在,对这些数据进行数据挖掘分析,可以找到事物变化以及发展的规律,并且能够为科学决策提供数学依据。近年来,随着数据库技术的快速发展,以及数据库管理系统的大量应用,产生的数据越来越多,如何分析、处理这些海量的时间序列数据,并从这些数据中发现有预知性的、有价值性的信息,引起了现在越来越多学者的重视和关注。由于现在大量时间序列具有短期内波动频繁、存在大量噪声干扰并且不稳定等的一些特点,直接在原时间序列上进行时间序列挖掘处理工作包括相似性查询、分类和聚类、模式识别等,不但占用存储空间大、计算效率低下,而且严重影响算法的准确性以及可靠性,不能得到一个满意的预期的结果。近期以来,时间序列的数据挖掘、知识发现、预测、相似性搜索等问题已经成为研究热点,主要研究工作包括降维、特征提取、相似性度量、聚类等。本文是通过对时间序列聚类的工作进行深入研究,开展了以下的研究工作。1.提出了一种基于DTW的符号化时间序列聚类算法,对降维后的不等长符号时间序列进行聚类,该算法首先对时间序列进行降维处理,提取时间序列的关键点,并对其进行符号化;其次利用DTW方法进行相似度计算;最后利用基于Normal矩阵的谱平分方法和FCM方法进行聚类分析;实验结果表明,将DTW方法应用在关键点提取之后的符号化时间序列上,聚类结果的准确率有较好的提高。2.改进了一种基于关键点的时间序列聚类算法。该算法基于关键点技术,提出了一种新的时间序列聚类方法。算法首先寻找时间序列的关键点,并将关键点序列进行等维处理后,采用简单的欧氏距离进行相似性计算,最后利用模糊C均值方法实现时间序列的聚类。实验结果表明,在时间序列聚类过程中,该方法不仅可以有效降低时间序列的维数,加快聚类的速度,而且可以得到理想的聚类结果。3.改进的符号化时间序列处理方法。该算法首先将关键点提取技术应用在符号化算法中对时间序列进行降维处理,然后利用本文提出的方法对非等长的时间序列进行局部等维处理,再符号化;最后采用不同的方法进行相似度对比计算。实验结果表明这种方法是简单而有效的,并且使非等长符号化时间序列的相似性度量及聚类方法得到了拓展。