基于邻域离散度和隔离树的异常点检测算法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:luffyzero88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常点检测是数据挖掘领域中一项重要的研究任务,其主要目标是检测数据集中不合群的数据点,从而帮助人们发现反常的行为模式,揭示异常现象。当前异常点检测技术已经在各项生产实践活动中得到了广泛应用,例如欺诈检测、入侵检测、环境监控、基因表达式分析等。根据模型的不同,现有的异常点检测算法大致可分为以下几类:基于统计模型的异常点检测算法、基于邻近度的异常点检测算法、基于子空间的异常点检测算法、基于图论的异常点检测算法,以及基于集成学习的异常点检测算法。本文回顾了上述五类异常点检测算法,分析了它们的不足,提出了两种新的异常点检测算法:(1)经典异常点检测算法存在的问题是边缘数据点的异常度较高,这种效应会模糊正常点和异常点的边界,导致在某些情况下,边缘处的正常数据点被误判为异常点。针对这一问题,提出了基于邻域离散度的异常点检测算法(DON算法)。该算法将数据点所在邻域的离散度作为该数据点的异常度,从而避免边缘数据点的异常度过高。实验结果表明,该算法能够更有效地检测数据集中的异常点,并且算法对参数选择不敏感,性能较为稳定。(2)异常点是数据中的少数类,但许多异常点检测算法却需要计算所有数据点的异常度,然后通过排序才能得知哪些数据点异常度最高,计算量较大。针对这一问题,提出了一种新的基于隔离树的异常点检测算法(EGiTree算法)。该算法能够优先检测出前κ个异常度较高的数据点,无需计算每个数据点的异常度。实验结果表明,该算法在检测效果和性能上比其他算法有一定的优势。
其他文献
有关国家电力市场化改革的成功经验和教训,是世界各国电力改革的共同财富。本文对越南电力工业最近的资本化、电力体制改革及电力市场化建设进行了分析,以期能够为我国电力体
对采用CaO从含铬革屑中提取胶原水解物的条件进行了研究。通过比较不同CaO用量、反应时间和反应温度对胶原水解物提取率、灰分含量的影响,并对胶原水解物的铬含量进行了检测,
目的本研究旨在通过科学系统化研究方法,选取容易被护理人员获取及理解的临床指标,初步研制一套适用于护士使用、简单易行、可实时对患者进行观察评估的急性冠脉综合征(Acute
分析天水市近30年来作物种植结构的变化特征及粮食产量的变化,利用灰色关联度分析方法探讨了粮食生产的影响因素,定量分析了粮食产量与影响因素的关联程度。结果表明:天水市
9月30日,东营市知识产权局局长赵国苓、副局长李景东一行,到山东方圆有色金属集团调研指导知识产权工作。方圆集团副总经理、总工程师王智,技术中心主任、副总工程师边瑞民等
<正>虽然近些年中国的制造业发展突飞猛进,然而,提到"中国制造",人们还是会想到廉价、没有核心技术、大而不强。目前,中国正在制定"中国制造2025"规划,即到2025年步入制造强
目的:我们既往研究发现白细胞及血小板水平与甲状腺未分化癌(Anaplastic thyroidcarcinoma,ATC)预后呈负相关,因此推测造血调控基因可能参与了 ATC进展。衔接蛋白LNK (又称SH
作物根系形态分析是根系研究的重要内容。生物医学影像技术用于根系的可视化研究有着广泛的应用前景。本文分析了MRI成像技术进行作物根系形态结构的可视化研究的可行性。分
随着纳米技术的快速发展,纳米银颗粒(AgNPs)因诸多优良特性被广泛用于各个领域。大量包含在生活用品及工业产品中的AgNPs不可避免地进入生态环境中,进而存在潜在的环境风险。本
<正> 足球鞋是一种常见的运动鞋,按其运动性质可分为普通足球鞋和专业足球鞋两种。普通足球鞋涉及的范围广,而专业足球鞋因承受的运动量大,性能指标要明显高于普通足球鞋。专
期刊