离群点检测算法的研究及应用

被引量 : 0次 | 上传用户:sondio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测的目的是在给定的数据中发现那些与其他数据显著不同或不一致的数据。由于在网络入侵检测、欺诈检测以及生命科学等多个领域的应用,离群点检测已成为数据挖掘领域的研究热点。在所提出的不同种类的离群点检测算法中,基于隔离的算法因其线性的时间复杂度以及良好的可伸缩性备受欢迎。本文针对基于隔离的离群点检测算法存在的问题,提出两种离群点检测算法:基于极差的隔离森林离群点检测算法、基于相对比重的扩展隔离森林算法。论文的主要工作和创新如下:(1)从“极差大的样本中离群点出现的可能性也大”这个想法出发,提出基于极差的隔离森林离群点检测算法(r-i Forest)。在子采样后应用极差筛选样本子集,使样本子集中存在离群点的概率较大。另外,在隔离树构建时通过子节点与其父节点的样本量比重控制树的生长形态,避免生成性能较差的隔离树。与8种算法的对比实验表明:r-i Forest算法AUC值高出其他算法2%-40%,且比i Forest算法时间消耗减少约15%。(2)针对扩展的隔离森林算法(EIF)中局部离群点被密度相似的正常点掩盖不易被隔离的问题,提出基于相对比重的扩展隔离森林算法(RP-EIF)。该算法根据样本落入的叶子节点与其父节点的相对比重计算离群分数排名,而不使用基于路径长度的排名。与5种算法的对比实验表明:RP-EIF算法在5个公开数据集上的AUC值高出EIF算法1%-4%,高出其他4个算法2%-38%。且时间消耗要比EIF算法减少约30%。(3)设计实现了针对《国家学生体质健康标准》测试数据的审核工具包(R语言包)。从完整性、有效性、一致性以及似然性4个方面进行数据审核。并把本文提出的RP-EIF算法用于多变量离群点的检测,降低审核工具包的审核时间。解决了人工无法对体测大数据审核的问题。
其他文献
随着互联网技术的快速发展,手机支付变得更加便捷、安全、高效,越来越多的人青睐于网络购物,这也使得物流行业成为了一个有着良好发展前景的行业。物流企业利润增长的同时企业的各项成本也在不断增长,如果物流企业不能对其进行正确的认识并进行有效的管理,不仅会对企业自身的发展造成不利影响,而且还会对企业所积累的资源造成极大的浪费。企业完善成本管理,对于改善企业经营的各个环节并提高企业在行业内的核心竞争力,实现企
学位
<正>在小学数学教学中,运算主要是指整数、小数、分数的“加减乘除”四则运算。运算教学在我国历经了一个逐步发展变化的过程,在20世纪“双基”教学的背景下,我们十分重视算法和算理的教学,进入21世纪,在新一轮基础教育课程改革中,在原来的基础上,我们开始关注算法的多样化,现在进入核心素养时代,运算能力成为数学核心素养的重要表现。那么,在数学核心素养导向下,如何才能更好地提高学生的运算能力,促进学生形成和
期刊
新课标明确了数学运算在学生数学思维发展中的意义和价值,并分别在三个学段目标中分层次提出了探索数的运算的一致性,发展学生的数感、符号意识、运算能力和推理意识等目标要求。
期刊
海事是综合交通运输的重要组成部分,也是我们国家水上的主要行政执法力量,肩负着保障水上交通安全、维护水域清洁、保护船员整体权益、维护国家海洋主权和人民利益的重要职责。海事系统大力推进队伍“革命化、正规化、现代化”建设,目标是构建一支听从指挥、素质精良、作风过硬、服务人民的海事队伍,最终形成监管到位、保障有力、反应快捷、服务智能的现代海事服务体系。因此,文章从海事航保队伍职业化建设的现状入手,为提升海
期刊
<正>为深入学习贯彻习近平总书记关于推进法治专门队伍革命化、正规化、专业化、职业化的重要指示精神,贯彻落实交通运输部、交通运输部海事局和东海航海保障中心关于海事队伍“四化”建设的部署要求,东海航海保障中心福州航标处全面启动海事航保队伍“四化”建设工作,多措并举,稳扎稳打,凝心聚力扬起队伍“四化”建设风帆。
期刊
数学解题能力是数学能力和素养的集中体现,是在一次次的数学解题活动中形成并发展提升的.本文通过两个例子的实践,阐释如何在数学解题活动中培养与发展数学核心素养,提升数学解题能力.
期刊
报纸
<正>党的二十大报告对中国式现代化的本质要求进行了深刻阐述。全面建设社会主义现代化国家、全面推进中华民族伟大复兴,关键在党,关键在人。海事作为交通运输系统一支重要执法队伍,在助力加快建设交通强国、努力当好中国现代化的开路先锋征程中,关键就是要以海事队伍“四化”建设为遵循,将“四化”建设作为坚定拥护“两个确立”、坚决做到“两个维护”的最生动实践,全力打造一支又强又美的海事铁军。深圳海事局自成立以来,
期刊
随着价值互联时代的到来,区块链作为构建价值传递网络的关键技术,已经广泛应用于金融、法律、能源、医疗、保险和公共服务等众多领域。但区块链的性能瓶颈仍然是当前亟待解决的重要问题,也限制了区块链技术在元宇宙、Web3.0和工业互联网等新兴领域的进一步发展。作为一种庞大分布式系统,区块链建立在底层TCP/IP网络的基础上,大量的节点间区块和交易数据同步是制约区块链效率的重要原因之一,但目前,针对区块链网络
学位
目的 分析临床颈部淋巴结阴性(cN0)甲状腺微小乳头状癌(PTMC)病人中央区淋巴结转移的影响因素。方法 选取2019年1月至2021年12月合肥市第一人民医院甲状腺乳腺外科首诊收治并由同一治疗组手术治疗行预防性中央区淋巴结清扫的cN0期PTMC病人106例,回顾性分析年龄、性别、肿瘤长径、肿瘤是否多灶及桥本甲状腺炎与中央区淋巴结转移率的关系,并探讨其独立危险因素。结果 cN0期PTMC病人中央区
期刊