论文部分内容阅读
近年来,异常检测成为数据挖掘、模式识别等领域的研究热点,并在日常生活中有着广泛的应用。然而,在进行异常检测时,由于时间序列的非线性甚至高维性,异常的多样性等问题,直接进行异常检测,其准确性、效率等多方面的性能可能会受到较大影响。要设计出有效、准确的异常检测方法就需要研究对时间序列进行压缩及转换的数据表示方法。通过有效的数据表示方法,去除时间序列中冗余无效的信息,仅保留那些对时间序列重要的关键信息,为后续的准确检测准备条件。分段聚合近似(Piecewise Aggregate Approximation, PAA)表示是一种简单快速的数据表示方法,引起了不少研究者的关注。然而,PAA表示仅使用均值描述时间序列分段,损失了数据中重要的幅值信息。本文针对PAA表示的不足进行了数据表示的研究,并将其与典型算法结合,开发了两种准确且有效的异常检测方法。本文的主要创新如下: (1)针对时间序列的局部进行分块表示,使各分块的数据被包络在其内部数据的最值之间,改善PAA对幅值信息描述不足的问题。由于此处的分块表示主要应用于周期与伪周期时间序列中的周期模式,被称为块化模式近似( Massing Pattern Approximation, MPA)表示方法。另外,本文针对任意两个周期模式的MPA表示设计了合理的距离计算方式,通过与最近邻距离( NND)结合,本文提出了一种MPA-NND异常检测方法。仿真数据及 ECG等真实数据的实验表明,该方法能够准确地检测多种形式的异常。同时,与PAA-NND算法比较,MPA-NND算法的准确率提高了约37%。 (2)本文对分块表示进行扩展,不仅考虑分块中所有数据的最值,还考虑块内部的信息,提出了块化聚合近似(Massing Aggregate Approximation, MAA)方法。通过描述块内部的信息,使块化表示不局限于描述时间序列的周期模式,而能描述时间序列整体及其中任意长度的子段。然后,通过最近邻距离的异常检测框架,开发了MAA-NND异常检测算法。实验表明,该算法在检测异常时不仅具有较高的准确性,而且具有较高的分辨异常的能力。与PAA-NND算法比较,MAA-NND算法的准确率提高了37%,对异常的分辨能力提高了约3.7倍。同时,在与MPA-NND算法准确率几乎一致的情形下,MAA-NND方法对异常的分辨能力相比 MPA-NND算法也有较大提高。