论文部分内容阅读
随着时间的推移,客观对象某一属性的取值不断变化,采集得到的数据集合就构成了时间序列数据。时间序列是一种重要的数据类型,这种新数据类型被广泛应用在社会生活的方方面面,典型的有某一时间段国内外的生产总值、气象预报、股票期货最终成交价格以及其他类型数据的指数大小。对时间序列的研究有助于挖掘出数据中与时间相关的有价值信息,实现知识的提取。现实世界中由于时间是无尽头的,所以时间序列类型的数据库规模非常大,能达到TB单位的数量级。时间序列本身的高维、复杂、动态以及高噪声的特性注定了直接对原始序列进行研究势必会造成挖掘时间效率低下,挖掘结果的不准确以及研究结论的可信度降低。因此如何有效的对时间序列进行预处理成了最具挑战性的研究课题之一。预处理分为模式表示和相似性度量两个方面。时间序列的模式表示可以将时间序列关键的特征提取出来,降低特征空间维数,保留原始序列的形态,为下一步的研究做铺垫。由于模式表示的压缩率高、形式简单,许多学者参与了对此的研究。本文针对传统的时间序列模式表示算法往往忽略时间序列的时间特性,导致分段结果不够精确的问题,提出了基于双曲正切函数约束的时间序列建模表示算法。该算法在分段聚合近似的基础上引入双曲正切函数,并且提出了移动增强因子的概念。移动增强因子考虑了时间对各个子序列所含信息量差异的影响,促使时间序列分段后的模型更加契合原始时间序列,完成最终的时间序列分段表示。相似性度量,顾名思义是为了比较序列之间的相似性,在指定的数据库中找到与给定序列在某一定义下相似的序列,在数据挖掘领域是一项重要且基础的识别时间序列模式的预处理任务,对时间序列的异常检测和预测都有至关重要的意义。针对传统的动态时间弯曲算法容易受到离群点以及局部噪声点的影响导致运算结果的准确性不高,不能较精确的处理复杂时间序列数据。对此,文中提出基于形态距离及自适应权重的相似性度量算法。该算法首先利用趋势滤波对原始待比较序列进行降维,压缩;其次引入形态距离计算两时间序列的距离矩阵;最后采用自适应赋权的距离函数抽取出各个子序列所含信息量的差异,利用动态时间弯曲的算法思想完成相似度量工作。最后在大量公开数据集上进行了一系列的实验,结果表明:(1)基于双曲正切函数约束的时间序列建模表示算法有较小的拟合误差,利用此算法对序列完成分段,能够保证在满足时间序列动态增长的条件下,更好的完成序列的宏观相似性查找等工作,算法的通用性,准确性均有所提高。(2)基于形态距离及自适应权重的相似性度量算法鲁棒性更高,在完成宏观的相似性度量的基础上更好的保留了序列的形态特征,同时能更加精确,高效的处理复杂的时间数列。