论文部分内容阅读
离群点检测方法作为数据挖掘的重要分支之一广泛应用于信用卡诈骗、医疗健康、股票分析、用户信誉评估、网络入侵检测等诸多领域并推动着这些领域行业朝着健康、稳定、安全的方向发展。多年来,众多学者对基于近邻密度和基于聚类剪枝的离群点检测方法进行广泛的探讨与研究。面对海量数据集,基于近邻密度的离群点检测方法中离群因子的计算具有较高的时间消耗。而基于聚类剪枝下的离群点检测方法在对数据集进行离群点检测时虽然通过聚类剪枝来降低计算量,但面对多维复杂的数据集,其聚类剪枝过程中涉及到的聚类算法的聚类效果仍需要进一步改进。本文对基于近邻密度的离群点检测方法和基于聚类剪枝下的离群点检测方法中存在的局限性,提出了基于优化的SOFM(Self-organizing feature Map)聚类算法下的一种基于近邻信息熵的离群点检测方法(Neighbor Entropy Local Outlier Factor,NELOF),旨在提高SOFM聚类算法的聚类效果,并在保证检测结果有效性的基础上,提高离群点检测的时间性能和准确度。本文的主要研究内容如下:(1)对SOFM聚类算法进行改进,提出了一种基于Canopy算法的SOFM聚类算法。算法采用Canopy算法模糊确定神经元的个数以及对应权向量,通过自增长方式动态调整神经元、基于最近最远原则调整偏离神经元的位置、基于数据块来进一步对神经元位置进行优化,并从全局最优角度对相似神经元进行合并。该算法能够避免初始阶段对神经元个数以及对应权向量的随机选择,调整训练过程中的网络结构来达到降低死神经元出现的可能,改进聚类效果。(2)通过对LOF(Local Outlier Factor)算法中有关离群因子的分析,提出基于近邻信息熵的离群点检测算法(NELOF)。该算法采用基于中心点块排序选择算法来减少待检测数据的数量级,采用基于近邻域方差平衡算法动态确定K近邻域中的K值,以避免对K值的随机选择。同时借鉴LOF算法中关于离群因子的定义思想并引入信息熵来重新定义离群因子,降低了计算离群因子的时间复杂度。(3)完成了实验的设计和实验分析。通过分析验证了本文提出方法的有效性,通过聚类剪枝降低计算量,保证NELOF算法在不失有效性的基础上降低了离群点检测的时间开销。