基于聚类的异常挖掘算法研究

被引量 : 16次 | 上传用户:kinter1113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络、金融、气象、医学、保险和电信等众多应用领域,稀有的、特殊的异常数据往往代表一种偏差或者新模式的开始,对这些异常数据的识别比对正常数据的分析更有价值,可从新的视角开启新的理论,从而带来新的应用。从数据分析的角度而言,识别这些异常数据就需要相应的异常挖掘算法。随着应用日益广泛以及数据不断积累,异常挖掘需处理的数据量越来越大,应用环境也越来越复杂。已存在方法主要针对中、小规模数值属性数据集,面对大规模混合属性数据集和动态数据流时,算法的可扩展性、时效性及准确性都难以满足实际应用的需求。在模式识别领域,异常挖掘可看作是一种特殊的分类问题。作为无监督模式识别的一个重要分支,聚类具有不需要任何先验知识的特性,比较适合面向大规模数据集的异常挖掘。因此,基于聚类的异常挖掘得到了广泛研究,提出了许多有效的异常挖掘算法,但仍有许多问题尚待研究和解决。本文主要针对已有异常挖掘算法存在的不足,从不同角度研究了基于聚类的异常挖掘算法。目前,已有基于聚类的异常挖掘算法大多直接将聚类形成的小簇作为异常,由于采用的类球形聚类算法限制,有些小簇可能是任意形状正常簇的边界,从而导致较高的FR (False Positive Rate)。为了提高挖掘结果的准确性,研究任意形状聚类对异常挖掘来说具有非常重要的意义。本文首先介绍了两种任意形状聚类算法OBASC和EASSC。算法OBASC针对小规模数据集,根据提出的可兼顾分类属性取值频率差异与频率高低的差异性度量方式,仅需输入一个近邻阈值参数就可发现任意形状的簇;增强的谱聚类算法EASSC使用改进的高斯核函数作为簇间相似性度量,可处理大规模高维变密度数据集。实验结果表明算法OBASC和EASSC聚类精度高,适用于混合属性数据集中任意形状聚类。这两种算法为设计高效的异常挖掘奠定了基础,但参数确定困难,必须经过多次试探。为减少用于预处理的聚类算法对用户的依赖,本文提出了基于聚类融合的异常挖掘算法CEBOM,将任意形状聚类算法中的一种——OBASC作为基础聚类算法,对较大范围内不同阈值下得到的候选异常进行融合,识别真正的异常。实验结果表明,CEBOM算法可降低直接将小簇作为异常的高FR,并且能提供给用户更为“友好”的操作。基于任意形状聚类的异常挖掘虽然可有效检测到异常数据,但时间复杂度较高。在内存有限的情况下,处理大规模数据集需要频繁的内外存数据交换,从而导致难以容忍的时空复杂度。针对此种问题,本文提出了两种面向大规模混合属性数据集的异常挖掘算法ICBOM和SNNOM。算法ICBOM在对原始数据集增量聚类的基础上,过滤掉大量正常数据,根据提出的异常簇定义识别数据集中的边界异常和内部异常,同时探讨了算法中的参数取值;算法SNNOM计算增量聚类结果簇间的共享最近邻相似度,不但能够发现任意形状的簇,还可挖掘到变密度数据集中的全局异常。理论分析与实验结果表明,这两种算法关于数据集的大小和属性个数呈近似线性时间复杂度,较之同类算法具有更高的DR (Detection Rate)以及较低的FR。算法CEBOM、ICBOM和SNNOM挖掘到的都是全局异常,但由于现实世界复杂多变,所获得的数据集往往不完整,特别是在动态数据流环境下,数据具有时间特性,且不断流逝,由此基于“在线聚类、离线异常挖掘”的思想,提出了两种不同模型下的混合属性数据流异常挖掘算法DMDSOM和SWMSOM。算法DMDSOM基于衰减模型,在线维护具有时间维的簇特征。异常挖掘阶段仅计算特定簇的整体偏离程度,是一种节省时间的策略;同时提出了一种可有效区分异常簇与数据进化初始阶段的方法,半径阈值动态改变。算法SWMSOM基于滑动窗口模型,使用宏簇与带时间戳的微簇增量聚类数据流,始终维护W个时间单位的宏簇。当接收到检测请求时,计算特定宏簇的多粒度偏差因子并按降序排列。理论分析与实验结果表明,这两种算法在线建立模型时具有近似线性时间复杂度,内存开销较小,可有效挖掘到混合属性数据流中的局部异常,是对现有异常挖掘算法的有益补充和改进。作为异常挖掘的一类实际应用领域,入侵检测中的正常行为和入侵行为彼此分离,同样可采用聚类技术来解决。本文提出了一种基于半监督人工免疫聚类的入侵检测算法,定义了混合属性抗原与抗体间的差异度,结合半监督学习仅使用少量标记数据的指导作用对训练集进行人工免疫聚类,建立分类模型,依据模型分类测试集,检测入侵行为。动态增长的网络数据因具有高速、无穷到达的特点,可看作数据流,因此又提出一种可用于混合属性数据流的入侵检测算法,在界标模型下增量聚类数据流,对结果簇进行加权模糊聚类,依据隶属度矩阵的最大隶属原则,将正常行为与入侵行为区分开来。实验结果进一步表明,这两种算法均可处理混合属性网络数据,具有较好的应用前景。本文从不同角度提出了基于聚类的异常挖掘新方法,理论分析与实验结果表明,提出的算法能够较为有效地解决相应的问题,不仅为异常挖掘提供了一些新的视角和手段,同时也丰富了模式识别的研究内容。
其他文献
中国的创业板市场经过十年的筹备终于在2009年10月23日正式举行开板仪式。这意味着面向高科技和成长型中小企业的“中国式纳斯达克”正式开启,我国多层次资本市场建设将从此
本文在介绍我国服务外包产业发展现状及相关税收政策演变过程的基础上,指出现有政策存在法律级次未达高度、政策覆盖没有广度、激励对象欠缺精度、政策扶持缺乏力度等问题,提
<正> 孤立主义在美国外交中占有重要地位,也是美国外交史研究的一个重大课题。它经常出现在美国外交史教科书和外交史文献中,在美国史学界引起无休止的争论。甚至对孤立主义
抑郁症是一种常见情感障碍性精神疾病,涉及到躯体、心理、意识等多个方面,归属中医情志病"郁证"范畴。传统脏腑辨证多从肝郁论治,容易忽略其它四脏在抑郁症中的重要作用,更没
世界贸易的不平衡发展使得贸易流不平衡,继而造成了集装箱的供需不平衡。航运公司为了满足客户的用箱需求和自身的发展,就不得不进行空箱的调配操作,这是航运企业发展和运营
根据两级模糊模式识别理论,建立相对优属度矩阵,分析指标的权重向量,并结合海明距离和欧式距离对汛限水位动态控制的各方案进行排序,最后得到最佳方案。
大学生入党后的继续教育问题当前越来越受到关注。本文从大学生党员自身、教育方法、教育队伍等方面论述了大学生党员入党后教育缺失的表现,分析了产生现状的原因,最后分别从
我国北方农牧交错带是环境变化的敏感地区之一.全新世以来,根据本区的沙地形成、演化和湖泊演化对比,得知近1万a来有过四五次较大的气候波动;自3000a以来干湿频率有加强的趋
水电站施工资料的整编是工程施工管理的重要环节,也是工程竣工验收的重要基础依据,做好施工资料的整编工作是使用、维护的需要,也是今后改建、扩建的需要。