局部离群点检测算法在Hadoop上的研究与实现

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:qq243129435
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术与互联网信息技术的高速发展,全球进入大数据时代,人们从数据的消费者变成了数据的产生者。数据规模急速膨胀,企业以及用户如何从海量数据中获得有价值的信息成为他们面对的首要问题。人们对数据蕴含的知识的探索推动了数据挖掘领域的发展。离群点检测作为数据挖掘的一支,备受人们的青睐,随着数据量的增加,离群点同样蕴含重要的有价值的信息。离群点检测的应用领域广泛,例如网络入侵检测,医学疾病监控,环境检测等领域。此外,利用云计算和分布式原理处理大规模数据的技术发展迅猛,以开源的Hadoop平台为代表,使得海量数据的数据存储和数据处理变得更加有效和方便。本文通过对当前局部离群点检测算法的研究与分析,利用基于密度聚类的理论知识对数据集预处理,过滤聚类簇点,降低数据规模,对检测算法的离群因子值的计算做出改进,同时结合分布式平台,提出一种改进的基于密度聚类的分布式局部离群点检测算法。本文首先对局部离群点检测算法进行研究,主要介绍了基于密度的局部离群点检测算法LOF、COF、INFLOF三种,对这三种算法的原理与具体实现过程进行研究;其次,对聚类算法中的基于密度的算法进行研究,详细介绍了两种不同的密度聚类模型的特征和计算方法;然后,对Hadoop生态系统的各组件进行探讨,深入研究分布式文件系统的存储和数据读写原理,数据库的设计原理,MapReduce的执行架构与编程模型,实现并行化计算的原理以及其他组件协调工作机制。根据上述理论的研究,本课题提出一种局部离群点检测改进的算法,结合信息熵属性加权理论以及分布式理论解决当前离群点检测算法面临的数据规模大,数据成分复杂造成的计算瓶颈,以及数据节点可扩展性等问题。本文最后为集群搭建Hadoop分布式系统和HBase数据库环境,并在集群上实现所提算法。实验表明,基于密度聚类的分布式离群点检测算法可以有效地实现大规模数据的检测,与并行化的COF算法、LOF算法相比时间复杂度低,准确率相对较高。通过增加集群的数据节点数可以解决数据可扩展性的问题。
其他文献
前言1962年我所与杭州汽车发动机厂联合设计6120×140车用柴油机;以后在6120×140柴油机基础上扩大缸径为130毫米,变为6130×140柴油机。1973年几家生产厂又将冲程加大到150
当前我国高校思想政治理论课引入服务学习具有深厚的理论依据。马克思主义认识论是高校思想政治理论课引入服务学习的哲学基础;马克思关于教育与生产劳动相结合的思想是高校
一元代数方程的发展经历了漫长的历史,有很多的数学家都对代数方程的求解作出了巨大的贡献,其中拉格朗日是比较突出的一位,拉格朗日是在广泛而认真地研究了前人工作的基础上
本论文由三章组成:第一章论述了鼎湖血桐(Macaranga sampsonii Hance)的化学成分及其生物活性的研究。通过各种分离纯化技术从植物鼎湖血桐乙酸乙酯相中共分离鉴定得到36个化合物,并对其中的13个化合物进行了生物活性筛选。第二章论述了莲子心(Nelumbinis Plumula)(含外皮)的化学成分及其生物活性的研究,通过各种分离纯化技术从莲子中分离鉴定得到15个化合物,其中有1个
在我国经济建设不断推进的今天,有实力的企业纷纷成功上市无疑为我国经济在全球经济的发展中展现出了不俗的实力。然而在各企业趋之如骛的上市热潮中,许多企业财务管理上的问
莲子心化学成分的研究工作始于上世纪中叶,迄今为止,已从莲子心中分离纯化得到多种生物碱类、黄酮类、多糖类、挥发油类等化合物。其药理活性研究在我国也有着悠久的历史,近年来,研究工作者们发现,莲子心生物碱类、黄酮类化合物均具有降血压、抗心律失常、降血糖、抗氧化、免疫抑制、抑菌、抗肿瘤等药理作用。但综合文献来看,目前对于莲子心化学成分及药理活性的研究机制尚不完整,还有待进一步的探索。目的:本论文旨在对莲子
在当今知识经济的背景下,科技创新成为国家和产业发展的关键要素,产业集群是一个国家竞争力的关键驱动力。产业集群正在经历由成本驱动向创新驱动的转化,创新型产业集群是集群经济发展的新模式,是产业集群发展的高级阶段。创新型产业集群能够有效加强企业之间的合作与交流,降低企业运营成本,提升企业创新能力,促进区域经济发展模式转型升级。因此,创新型产业集群的科学规划、要素整合以及状态改进是一项重要的研究课题。本文
厘金是晚清时新兴税种,由于未被划为正式收入,因此,一直作为费的形式存在。对厘金制度的产生发展进行初浅认识,讨论厘金制度对近代中国经济的影响以及从中得出一些借鉴意义。
<正>最近读了一本书叫《女儿的故事》,在书中,作者梅子涵用轻松风趣的语言讲述了自己的女儿梅思繁成长的点滴故事,其中有欢乐,有忧伤,有苦恼,也有淡淡的无奈。语言朴素,情节
众所周知,种群生态学作为数学在生态学中应用最为广泛和成熟的分支之一.许多种群模型的研究都可归结为对反应扩散方程的研究,在研究种群的扩散现象时,大多数种群受到时变环境