论文部分内容阅读
随着社会经济、计算机信息技术和存储技术的不断发展,在日常生活和科学研究领域中,逐渐积累了大量的有重要参考价值的数据。如何从这些宝贵数据中挖掘出我们需要的知识已经成为数据挖掘领域研究的热点问题。时间序列作为一种重要的按时间先后顺序排列的数据形式,反映了属性值在时间或空间顺序上的特征。时间序列的分类、聚类、异常检测、建模、相似性查询等操作可以实现有价值知识的提取。目前时间序列数据挖掘是数据挖掘中的一个重要研究方向。由于时间序列具有数据量大、噪声干扰严重和短期波动频繁等特点,直接在原始时间序列上进行相似性查询、分类聚类、模式挖掘等操作,很难得到满意的结果。因此,开展时间序列的降维研究是十分有必要的。许多学者提出了时间序列的线性拟合、线性分段等降维方法,在刻画时间序列主要形态的同时,忽略那些微小的细节,把握局部特征,从而保持了序列主要特征的不变性,极大提高数据挖掘的效率,达到简化计算量的目的。本文通过对时间序列线性表示的深入研究,开展了如下的研究工作。(1)提出了一种精确的时间序列线性拟合方法。算法首先通过判断连接相邻点所成线段的斜率变化来选择时间序列中的转折点,然后将这些点与时间序列的极值点合并作为关键点,用这些关键点组成的序列拟合原时间序列。这种线性拟合算法在剔除了噪声的同时,能更精确的定位时间序列中的关键点。实验结果表明,该方法能更好的近似表示原时间序列。和已有的方法相比,该方法拟合后的时间序列和原时间序列之间的拟合误差更小。(2)给出了一种基于函数的时间序列分段线性表示方法。考虑到时间序列的时间特性对于不同区段的影响,以及时间序列数据动态增长的实际情况,在RPAA(Reversed Piecewise Aggregate Approximation)和PAA(Piecewise Aggregate Approximation)方法的基础上,提出了一种新的时间序列分段线性表示方法FPAA(Function Piecewise Aggregate Approximation)。FPAA方法通过定义函数影响因子,克服了RPAA和PAA方法的不足。此方法满足下界定理,并且支持时间序列的在线划分。实验表明,与PAA方法和RPAA方法相比,所提出的方法可以比较有效的进行时间序列的在线查询。