论文部分内容阅读
在网络、金融、气象、医学、保险和电信等众多应用领域,稀有的、特殊的异常数据往往代表一种偏差或者新模式的开始,对这些异常数据的识别比对正常数据的分析更有价值,可从新的视角开启新的理论,从而带来新的应用。从数据分析的角度而言,识别这些异常数据就需要相应的异常挖掘算法。随着应用日益广泛以及数据不断积累,异常挖掘需处理的数据量越来越大,应用环境也越来越复杂。已存在方法主要针对中、小规模数值属性数据集,面对大规模混合属性数据集和动态数据流时,算法的可扩展性、时效性及准确性都难以满足实际应用的需求。在模式识别领域,异常挖掘可看作是一种特殊的分类问题。作为无监督模式识别的一个重要分支,聚类具有不需要任何先验知识的特性,比较适合面向大规模数据集的异常挖掘。因此,基于聚类的异常挖掘得到了广泛研究,提出了许多有效的异常挖掘算法,但仍有许多问题尚待研究和解决。本文主要针对已有异常挖掘算法存在的不足,从不同角度研究了基于聚类的异常挖掘算法。目前,已有基于聚类的异常挖掘算法大多直接将聚类形成的小簇作为异常,由于采用的类球形聚类算法限制,有些小簇可能是任意形状正常簇的边界,从而导致较高的FR (False Positive Rate)。为了提高挖掘结果的准确性,研究任意形状聚类对异常挖掘来说具有非常重要的意义。本文首先介绍了两种任意形状聚类算法OBASC和EASSC。算法OBASC针对小规模数据集,根据提出的可兼顾分类属性取值频率差异与频率高低的差异性度量方式,仅需输入一个近邻阈值参数就可发现任意形状的簇;增强的谱聚类算法EASSC使用改进的高斯核函数作为簇间相似性度量,可处理大规模高维变密度数据集。实验结果表明算法OBASC和EASSC聚类精度高,适用于混合属性数据集中任意形状聚类。这两种算法为设计高效的异常挖掘奠定了基础,但参数确定困难,必须经过多次试探。为减少用于预处理的聚类算法对用户的依赖,本文提出了基于聚类融合的异常挖掘算法CEBOM,将任意形状聚类算法中的一种——OBASC作为基础聚类算法,对较大范围内不同阈值下得到的候选异常进行融合,识别真正的异常。实验结果表明,CEBOM算法可降低直接将小簇作为异常的高FR,并且能提供给用户更为“友好”的操作。基于任意形状聚类的异常挖掘虽然可有效检测到异常数据,但时间复杂度较高。在内存有限的情况下,处理大规模数据集需要频繁的内外存数据交换,从而导致难以容忍的时空复杂度。针对此种问题,本文提出了两种面向大规模混合属性数据集的异常挖掘算法ICBOM和SNNOM。算法ICBOM在对原始数据集增量聚类的基础上,过滤掉大量正常数据,根据提出的异常簇定义识别数据集中的边界异常和内部异常,同时探讨了算法中的参数取值;算法SNNOM计算增量聚类结果簇间的共享最近邻相似度,不但能够发现任意形状的簇,还可挖掘到变密度数据集中的全局异常。理论分析与实验结果表明,这两种算法关于数据集的大小和属性个数呈近似线性时间复杂度,较之同类算法具有更高的DR (Detection Rate)以及较低的FR。算法CEBOM、ICBOM和SNNOM挖掘到的都是全局异常,但由于现实世界复杂多变,所获得的数据集往往不完整,特别是在动态数据流环境下,数据具有时间特性,且不断流逝,由此基于“在线聚类、离线异常挖掘”的思想,提出了两种不同模型下的混合属性数据流异常挖掘算法DMDSOM和SWMSOM。算法DMDSOM基于衰减模型,在线维护具有时间维的簇特征。异常挖掘阶段仅计算特定簇的整体偏离程度,是一种节省时间的策略;同时提出了一种可有效区分异常簇与数据进化初始阶段的方法,半径阈值动态改变。算法SWMSOM基于滑动窗口模型,使用宏簇与带时间戳的微簇增量聚类数据流,始终维护W个时间单位的宏簇。当接收到检测请求时,计算特定宏簇的多粒度偏差因子并按降序排列。理论分析与实验结果表明,这两种算法在线建立模型时具有近似线性时间复杂度,内存开销较小,可有效挖掘到混合属性数据流中的局部异常,是对现有异常挖掘算法的有益补充和改进。作为异常挖掘的一类实际应用领域,入侵检测中的正常行为和入侵行为彼此分离,同样可采用聚类技术来解决。本文提出了一种基于半监督人工免疫聚类的入侵检测算法,定义了混合属性抗原与抗体间的差异度,结合半监督学习仅使用少量标记数据的指导作用对训练集进行人工免疫聚类,建立分类模型,依据模型分类测试集,检测入侵行为。动态增长的网络数据因具有高速、无穷到达的特点,可看作数据流,因此又提出一种可用于混合属性数据流的入侵检测算法,在界标模型下增量聚类数据流,对结果簇进行加权模糊聚类,依据隶属度矩阵的最大隶属原则,将正常行为与入侵行为区分开来。实验结果进一步表明,这两种算法均可处理混合属性网络数据,具有较好的应用前景。本文从不同角度提出了基于聚类的异常挖掘新方法,理论分析与实验结果表明,提出的算法能够较为有效地解决相应的问题,不仅为异常挖掘提供了一些新的视角和手段,同时也丰富了模式识别的研究内容。