论文部分内容阅读
实时数据异常检测是数据挖掘技术下异常分析的一个主要课题,高效、准确的实时数据异常检测对于保障工业生产安全、推进医疗技术发展、防止网络入侵、实现数据预测等有着重要的意义。当实时数据量较小、数据维度较低时,应用传统的异常检测技术就可以实现有效的实时数据异常检测。然而,随着信息化的加速,实时数据的数据量越来越大,实时数据的维度不确定性越来越强。如果应用传统的异常检测技术实现实时数据异常检测,那么算法的计算复杂度太高使得算法的检测效率低下,同时由于传统异常检测算法泛性较强、针对性较弱等特点导致算法的异常判别和异常分类精度不高。面对现有实时数据的数据量大、属性不确定性强的特点,如何实现高效准确的实时数据异常检测是异常分析技术所面临的一个严峻的挑战。为了解决这一问题,本文针对实时数据的特点做了如下工作:1)通过分析传统异常检测方法模型,结合现有实时数据的特点,本文提出一种针对实时数据的异常检测模型。相比传统的异常检测模型,该模型添加了数据过滤模块和系数向量模块:应用数据过滤模块可以大大减少待检测实时数据的数据量;应用系数向量模块可以提高实时数据异常判别和实时数据异常分类的精度。2)在数据过滤模块中,本文借鉴Sky-Line空间查询算法提出了基于边界集的数据过滤算法(Boundary-Set Filtering algorithm,BSF)。该算法通过定义统治集和边界集可以有效的实现数据过滤。异常检测过程旨在发现数据集中那些可能或已发生异常的数据,这些数据的数据量相对于初始数据集的数据量而言是很小的。基于这一特点本文把初始数据集中那些显然正常的数据样本定义为被统治样本,把初始数据集中不属于被统治样本的样本组成的集合定义为边界集。BSF算法就是指依照自定义的规则从初始数据集中提取边界集进而实现数据过滤的过程。3)在系数向量模块中,本文基于系数向量和决策树理论提出了基于系数向量的异常判别方法和Sign异常分类算法。在正交空间下,样本的系数向量可以确定样本在空间中的相对位置,所以基于系数向量应用样本对应向量的系数可以准确的判别实时数据异常;决策树理论是一种高效的分类技术,其核心在于条件的定义,Sign分类算法以样本对应向量的系数符号为决策条件能够实现高精度的异常分类。4)基于以上提出的模型和方法,本文提出基于系数向量的动态实时数据异常检测方法,并应用UCI数据集中的shuttle数据和TEP过程数据完成算法的仿真实验,实验对比了基于PCA的异常检测方法和基于KPCA的异常检测方法。实验结果表明基于BSF的实时数据动态异常检测方法具有高效性和准确性。