论文部分内容阅读
时间序列数据是一种常见的数据形式,在各个领域中都有着广泛的应用。因此,对挖掘时间序列内含的信息与知识是数据挖掘的一个重要研究方向。而传统的数据挖掘方法通常针对的是静态数据,而时间序列数据通常是动态的、数据量大的数据。传统的数据挖掘方法并不能有效地挖掘其中的信息。如何更好地处理和挖掘时间序列数据具有十分重大的意义。时间序列的潜在模式挖掘是对没有先验知识的时间序列发掘其内在联系。由于时间序列的数据量大,要挖掘其潜在模式,首先要通过时间序列特征表示对其进行降维,然后在采用无监督的聚类算法将内在联系紧密的时间序列聚合为一类,最终得到的聚类结果可认为是其潜在模式。本文针对时间序列挖掘潜在模式困难的问题,分析了通过时间序列特征表示和聚类方法实现潜在模式分离的可行性。并针对数值型时间序列分析了目前已有的适用于该类数据的时间序列特征表示方法及聚类算法。已有的时间序列特征表示法对时间序列进行降维的同时,其特征表示缺不能很好地保留原时间序列的特征,这会对后续的聚类分析造成影响。因此本文通过将离散傅里叶变换与分段思想相结合,提出分段离散傅里叶变换的时间序列特征表示法,有效对时间序列降维的同时能尽可能地保留其原序列的特征。在没有任何关于数据的先验知识的情况下,聚类分析能解决大量数据的分类问题,挖掘其内在联系。因此,可采用聚类方法挖掘其潜在模式。其中DENCLUE算法是一种优秀的解决变密度任意形状分布数据的聚类算法,具有很好的普适性。但是,由于DENCLUE算法存在人为设定的参数多,参数间相互制约使得参数设定调试困难,计算复杂度高等的问题,使其应用于时间序列模式分离的效率和性能不佳。为了改善这一问题,使DENCLUE算法能更好地挖掘时间序列的潜在模式,引入聚类评估的簇内点数估计方法,提出一种规避噪声阈值设定的DENCLUE算法。该方法减少了人为设定参数的数量,降低计算复杂度,此外,其得到的簇的紧凑度更佳,能够较好的识别数据中的噪声点,聚类结果更能反映真实数据分布情况,对于DENCLUE方法的适用性以及性能均得到有益的提升。本文将提出的分段离散傅里叶变换和规避噪声阈值设定的DENCLUE算法应用于某航天发射场的管道温度监测的间序列数据,寻找其潜在模式。并通过基于动态时间弯曲距离的轮廓系数验证发掘的模式是否满足同一模式的时间序列有较高的相似度,不同模式的时间序列相似度较低,以此标准来判断得到的潜在模式是否符合实际情况。