基于多次抽样和维度熵的异常点检测算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:marker1900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常点是与数据集中大多数数据不同的、不一致的和具有足够大偏差的数据实例。异常点检测的主要任务是检测数据集中的异常数据实例,可以用于找出某些反常现象和异常行为,有着十分重要的研究意义。当前,异常点检测技术已经在各种社会生产和生活领域中提供关键的、可操作的信息,并产生了许多代表性的应用,例如信用卡欺诈检测、医疗诊断、环境监控、基因序列研究等。目前学术界已经提出了许多异常点检测算法,通常可以分为五大类,即基于统计模型的方法、基于距离的检测方法、基于密度的检测方法、基于子空间的检测方法和基于集成学习的检测方法。本文概述了上述五类异常点检测算法,分析了它们各自的优点以及存在的不足之处,介绍了一些常用的异常点检测算法和两种主流的评价方法平均精度以及AUC值,并提出了两种新的异常点检测算法。1)基于多次抽样的最近邻异常点检测算法MS-1NN:随着近年数据容量和维度的增加,对异常点检测算法的运行速度、检测效果和稳定性都提出了更高的要求,传统的基于k-近邻搜索方法难以兼顾,基于一次抽样的方法随机因素较大,算法效果不够稳定。鉴于这些问题,本文提出了一种基于多次抽样的最近邻异常点检测算法MS-1NN,并且将该算法与LOF、SOD等算法进行了对比实验,验证了该算法只需要很小的训练模型,使用默认参数就能在多数数据集中取得较好的检测效果,较快的运行速度,以及较为稳定的检测结果。2)基于维度熵的改进孤立森林异常点检测算法E-iForest:异常点检测是数据挖掘领域中一个重要并且基础的研究任务。在众多异常检测方法中,iForest算法时间复杂度低、检测效果好,在面对大容量高维数据时具有更好的适应性。但是,iForest算法不适用于特别高维数据,对噪声维度鲁棒性不够强,且运行结果稳定性不足。鉴于这些问题,本文提出了一种基于维度熵的改进孤立森林异常点检测算法E-iForest。该算法通过引入信息熵作为选择隔离属性和隔离点的依据,并且以此为基础改进路径长度计算,进行异常检测。通过实验验证了E-iForest算法在运行效率、检测效果、稳定性和对噪声维度的鲁棒性方面均有较好的表现,尤其在面对大容量数据集时表现出色。
其他文献
研究目的炎症细胞及其因子构成的子宫内炎性微环境是子宫内膜容受性概念的重要组成部分。本实验观察补肾活血方导法对肾虚血瘀着床障碍模型大鼠着床窗期子宫内膜形态学、血清雌二醇(Estrogen-2,E2)和孕酮(Progesterone,P)含量、子宫组织炎症介质脂氧素A4(lipoxin A4,LXA4)、促炎因子白细胞介素1α(Interleukin-1α,IL-1α)、白细胞介素1β(Interle
随着无人机在农业领域的推广使用,结合光谱信息采集分析的无人机遥感逐渐成为了监测农情、评估判断农田作物长势的有效手段。而多旋翼无人机在低空遥感作业时产生的风场,会造
本文以水盂的发展演变为线索,系统论述了这一文房器具在各个时代的形制特点,以及与文人之间的联系。
“蓝领”较频繁地出现于我国媒体,指称我国特定群体应该是进入新世纪最近几年的事。目前“蓝领”在与“白领”对立的语义场中,侧重指称企业工人,包括体力型工人和技术型工人(
目的:探讨临床常规检查项目对内窥镜逆行胰胆管造影(ERCP)阳性结果的预测价值,避免阴性ERCP探查,确定ERCP检查的最佳指征。 资料与方法:收集132例ERCP检查的临床资料(其中17例
微网逆变器作为微电网的基本接口,将分布式电源产生的电能转换为三相交流电为本地负载供电。低压微电网中,由于不平衡负载的普遍存在,会导致微网逆变器输出电压的不平衡。本
失眠是一种临床常见的睡眠障碍性疾病。目前,镇静催眠类药物仍然是治疗失眠的主要措施。唑吡坦是一种新型镇静催眠药物,为苯二氮类受体激动剂,属于非苯二氮类。相比苯二
中职教学诊断与改进缺乏操作范式,普遍存在"无从入手"的感觉。"三点一线"模式,借助信息化平台的"线",通过细致规划起始点、过程点、阶段终点,将教学诊断与改进工作呈现为可观
自改革开放以来,我国零售业发展较快,并逐渐成为影响我国经济发展很重要的一个组成部分,零售企业担任着直接向消费者提供商品和服务的地位,高效率的零售业业态对于扩大内需,吸收和消化空间生产中的过度积累问题具有重要的推动作用。然而,一方面,随着我国网民规模的不断上升,网络零售模式越来越受到欢迎,其迅速的发展冲击了实体零售,两者之间出现了不能协同发展的问题,很多实体店迫于成本压力开始大量的关闭,实体店对我国
随着社会的高速发展,人们的生活节奏也日益加快,而高速的生活节奏极易引发一系列生理或心理上的问题。相比于有一定工作经验和生活阅历的成年人而言,刚刚脱离亲朋保护的大学生更容易产生问题,甚至出现退学乃至轻生等不可挽回的行为。随着信息技术的推广和应用,以数据驱动为核心的异常检测技术在学生心理健康教育领域也取得了一系列出色的成果。因此如何利用异常检测技术来处理和分析校园中的学生数据以辅助高校进行管理是一个值