基于SOFM聚类算法的离群点检测方法的研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:ahde2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测方法作为数据挖掘的重要分支之一广泛应用于信用卡诈骗、医疗健康、股票分析、用户信誉评估、网络入侵检测等诸多领域并推动着这些领域行业朝着健康、稳定、安全的方向发展。多年来,众多学者对基于近邻密度和基于聚类剪枝的离群点检测方法进行广泛的探讨与研究。面对海量数据集,基于近邻密度的离群点检测方法中离群因子的计算具有较高的时间消耗。而基于聚类剪枝下的离群点检测方法在对数据集进行离群点检测时虽然通过聚类剪枝来降低计算量,但面对多维复杂的数据集,其聚类剪枝过程中涉及到的聚类算法的聚类效果仍需要进一步改进。本文对基于近邻密度的离群点检测方法和基于聚类剪枝下的离群点检测方法中存在的局限性,提出了基于优化的SOFM(Self-organizing feature Map)聚类算法下的一种基于近邻信息熵的离群点检测方法(Neighbor Entropy Local Outlier Factor,NELOF),旨在提高SOFM聚类算法的聚类效果,并在保证检测结果有效性的基础上,提高离群点检测的时间性能和准确度。本文的主要研究内容如下:(1)对SOFM聚类算法进行改进,提出了一种基于Canopy算法的SOFM聚类算法。算法采用Canopy算法模糊确定神经元的个数以及对应权向量,通过自增长方式动态调整神经元、基于最近最远原则调整偏离神经元的位置、基于数据块来进一步对神经元位置进行优化,并从全局最优角度对相似神经元进行合并。该算法能够避免初始阶段对神经元个数以及对应权向量的随机选择,调整训练过程中的网络结构来达到降低死神经元出现的可能,改进聚类效果。(2)通过对LOF(Local Outlier Factor)算法中有关离群因子的分析,提出基于近邻信息熵的离群点检测算法(NELOF)。该算法采用基于中心点块排序选择算法来减少待检测数据的数量级,采用基于近邻域方差平衡算法动态确定K近邻域中的K值,以避免对K值的随机选择。同时借鉴LOF算法中关于离群因子的定义思想并引入信息熵来重新定义离群因子,降低了计算离群因子的时间复杂度。(3)完成了实验的设计和实验分析。通过分析验证了本文提出方法的有效性,通过聚类剪枝降低计算量,保证NELOF算法在不失有效性的基础上降低了离群点检测的时间开销。
其他文献
通过对南京医科大学开展本科生科研实践活动现状的分析,提出在医学本科生教育过程中可通过增加科研时间、改革学分制度、以培养科研兴趣和创新意识为主、建立全程导师负责制
病毒性肺炎是由于一种或多种病毒侵入呼吸道上皮和肺泡上皮,造成不同程度的肺功能损害的疾病。随着诊断技术的进步和人们的关注,病毒性肺炎可早期诊断并予以积极治疗,能使并
对气相色谱法测定十滴水中樟脑和桉油精含量结果的不确定度进行评定,分析了不确定度产生的来源、影响因素及过程,从而对实验中容易产生较大不确定度的来源进行更好的控制,以
随着现在社会的快速发展,科学水平的不断提高。人们对网络游戏的喜爱也在逐渐增加。与此同时,对于游戏中角色的探索也成了重要部分。作为网络游戏的主体部分,游戏角色的创作
高校内部招标活动具有一定的特殊性,即作为内部监督的纪检监察部门在行使监督权时容易出现监督误区。文章对高校纪检监察部门在行使监督权方面容易产生的误区现象及成因进行
数学开放题被认为是当今中学数学教学中最有价值的一种题型,它也是对中学数学教材中传统问题的有益补充。本文主要针对中学数学开放题的教学原则和流程做了探讨,并结合案例来
“CDK”出口方式为小轿车散件包装市场提供了无限商机 德国做为著名的汽车生产大国,每年都会有大量汽车出口世界各地。目前德国汽车出口采用最多的方式是全散件(CKD—Comple
研究开发了一种基于校准靶的C形臂X线影像的手术引导系统。系统通过提取分布在校准靶双层模板上的标志点影像,利用标志点特定的分布,提出了确定对应关系的算法,建立了不同坐标系
近年来.国家围绕扩内需、促消费、增加有效投资,出台了各项改革和支持政策,如城镇老旧小区改造、集体建设用地入市、新型城镇化建设、基本公共服务设施建设、“一带一路”倡
会议