基于Hadoop的孤立点检测算法研究

被引量 : 0次 | 上传用户:satan0wei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
孤立点检测作为一种重要的数据挖掘方法,旨在发现数据集中偏离多数模式的异常情况,在制造业、金融业、网络安全甚至医疗领域都有着广泛的应用,一直备受人们关注。近年来,针对不同的应用领域,研究者已经提出了许多行之有效的孤立点检测算法。然而,大数据时代的到来,使传统孤立点检测算法面临着效率瓶颈,不适用于大规模数据孤立点检测任务。MapReduce编程框架的提出,为高效地进行大规模数据处理带来了希望;Hadoop开源计算平台的发布,让每一个研究者都可以便捷地使用分布式计算这把利剑。本文旨在运用Hadoop分布式计算平台,克服传统孤立点检测算法在大规模数据处理时所面临的效率瓶颈,针对混合型数据的全局和局部孤立点检测问题,分别给出了新的算法,并且基于Hadoop平台进行了并行化实现。本文研究内容如下:(1)针对全局孤立点检测问题。本文依据邻域计数的思想给出混合型数据对象间相异性度量方法,并基于最近邻定义了对象的全局孤立度,进而提出了一个混合型数据的全局孤立点检测算法;并且基于Hadoop平台对该算法进行了并行化实现以进一步提高算法执行效率。最后,在UCI数据集上通过与已有算法比较实验结果表明,所提算法能有效地检测出混合型数据中的全局孤立点,具有参数少、检测精度高的优点;算法的并行化提高了混合型大规模数据的孤立点检测效率(2)针对局部孤立点检测问题。本文采用密度的思想定义了对象的局部孤立度,并运用聚类方法对非孤立对象进行预先剪枝,约减数据规模,提出了一个基于密度和聚类的三阶段局部孤立点检测算法;进一步基于Hadoop平台对该算法进行了并行化实现。最后,在人工数据集和UCI数据集上验证了该算法的有效性;同时,在大规模数据集上的实验结果表明该并行化算法具有良好的加速比和扩展性。(3)设计与实现了基于Hadoop的孤立点检测平台。首先,运用Hadoop平台构建了分布式计算环境,使其具备强大的计算能力。其次,采用B/S架构技术,整合本文提出的两个并行化孤立点检测算法,设计与实现了该孤立点检测平台。它提供了友好的图形界面和个性化的孤立点检测服务,用户可以便捷地通过WEB访问方式使用本平台所提供大规模数据管理、检测算法管理、检测任务管理等服务,完成个性化的孤立点检测任务。
其他文献
文章简要阐述了科教兴国、可持续发展与经济增长之间的关系,分析了目前我国在实施科教兴国、可持续发展战略,促进经济稳定增长方面存在的问题,从而提出妥善处理好这三者之间
随着数控加工技术快速发展,针对复杂零件的高精度、智能化复合式数控加工设备成为大势所趋,数控机床作为加工制造的基础设备,其性能、数量对装备制造业的重要性不言而喻。然
近年来旅游业迅速发展,已成为我国的支柱型产业,空间结构研究为旅游空间的合理布局与发展、旅游资源的合理开发与利用以及旅游的可持续发展等方面提供了基础性的支撑。风景旅
农家乐旅游作为一种新型业态形式,不仅给农业经济发展注入了新的活力也给旅游业发展拓展了新的空间,并且更广泛的为行业交叉提供了参考。本文通过对七师一三一团农家乐旅游发
当前,老旧工厂的大规模出现,已经给环境造成了一定的污染。如何对这些老旧工厂重新改造、利用和开发,在最大程度上合理利用老旧工厂的资源,较好地保留老旧工厂的历史和文化信
针对大学生打工是否受劳动法保护这一问题,通过对打工大学生的"劳动者"身份的法理探究,以及对大学生打工行为性质的法理辨析,认为在校大学生由于身份特殊,不应将其纳入劳动者
在今天,研究当代油画材料运用及表现的人越来越多,要出新意并非易事。由于资料限制,限于篇幅、个人能力,我只能抓住最重要的材料技法和它的绘画语言来分析研究,在当今具体的
快递业作为一种新兴服务业,改变着区域经济的格局,而山西目前正处于经济转型发展的探索阶段,加快快递业的发展,提升快递业市场竞争力,带动其他相关产业的联动发展,不仅可以满
随着电子商务的出现起决定了有些着千丝万缕的联系会随着出此案,因为是一种物流和物流管理模式,这就注定了会产生深远的影响,本文在这里对电子商务下物流管理和传统的物流管
本文通过对国外文献的综述整理了常见的盈余质量定义,并描述了常见的盈余质量衡量指标,如盈余持续性;应计项目;盈余反映系数(ERC)或者将ERC与其他构成如审计质量联系起来等。