基于密度的Top-n局部异常点快速检测算法

来源 :自动化学报 | 被引量 : 0次 | 上传用户:w198911154
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
局部异常检测(Local outlier factor, LOF)能够有效解决数据倾斜分布下的异常检测问题,在很多应用领域具有较好的异常检测效果.本文面向大数据异常检测,提出了一种快速的Top-n局部异常点检测算法MTLOF,融合索引结构和多层LOF上界设计了多粒度的剪枝策略,以快速发现Top-n局部异常点.首先,提出了四个更接近真实LOF值的上界,以避免直接计算LOF值,并对它们的计算复杂度进行了理论分析;其次,结合索引结构和UB1、UB2上界,提出了两层的Cell剪枝策略,不仅采用全局Cell剪枝策略,还引入了基于Cell内部数据对象分布的局部剪枝策略,有效解决了高密度区域的剪枝问题;第三,利用所提的UB3和UB4上界,提出了两个更加合理有效的数据对象剪枝策略, UB3和UB4上界更加接近于真实LOF值,有利于剪枝更多数据对象,而基于计算复用的上界计算方法,大大降低了计算成本;第四,优化了初始Top-n局部异常点的选择方法,利用区域划分和建立的索引结构,在数据稀疏区域选择初始局部异常点,有利于将LOF值较大的数据对象选为初始局部异常点,有效提升初始剪枝临界值,使得初始阶段剪枝掉更多的数据对象,进一步提高检测效率.在六个真实数据集上的综合实验评估验证MTLOF算法的高效性和可扩展性,相比最新的TOLF算法,效率提升可高达3.5倍.
其他文献
上海林内有限公司营销部部长王延红指出,灶具才是厨房的核心,从功能上看,灶具是制作美食的工具,没有烟机同样可以做出美食;从性能上看,与烟机比起来,灶具在安全、节能、环保
针对反求工程中复杂曲面CAD建模专用软件(RE-SOFT)与其他商用CAD/CAM系统间进行信息流动的问题,提出一种面向IGES标准输出的复合三角Beizer曲面重构四边NURBS曲面技术;通过复
创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力。党校教育事业的发展,贵在不断开拓创新。在新的历史时期,要增强党校干部教育培训的针对性和实效性,尤其需要党校文
历代著名建筑设计师都注重延续并打破传统进行创新设计,建造独特的具有特色的建筑。现代许多设计师在寻找自然与人与建筑的关系中,却往往忽视了能良好体现艺术、文化、风格的建
在柴达木盆地西部古近纪和新近纪地层中发育了典型的湖相生物礁,可以分为由基质支撑的叠层石礁、凝块礁和骨架支撑的藻礁3大类型,并对每种类型中亚类的特征和建造生物进行了
民主党派作为我国的参政党,其组织发展与建设直接关系到社会制度完善和政党制度建设,也是坚持和完善多党合作和政治协商的基本要求。在我国新时期的社会管理的中,民主党派扮
随着我国社会和经济的快速发展,自然资源的消耗量也在不断扩大。许多曾经以资源而兴起的城市和地区伴随着三十多年经济的高速发展,资源面临枯竭的局面。城市的发展因为资源消耗
文化这个术语,当被用于文化研究之中时,既不是强调其美学也不是强调其人文意义,而是政治性的。文化研究关注工业社会中意义的生产和流通。电视文本是文化研究方法和意义的潜
农村教育是面向农村地区进行的文化、经济、政治的教育,是各级各类教育的总和。可以通过基础教育、职业教育和成人教育等各类教育途径对农村人口进行再教育,基础教育可以更大
《中小学心理健康教育指导纲要》(以下简称《纲要》)明文规定,心理健康教育的具体目标是:使学生不断正确认识自我,增强调控自我、承受挫折、适应环境的能力;培养学生健全的人格和良