基于Hadoop的数据挖掘算法研究与实现

被引量 : 46次 | 上传用户:gmwang2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着突飞猛进的计算机处理能力和海量数据的存储能力,人们能够从客观世界中积累下来的种类繁多的各种实际数据里应用统计学、数据挖掘、机器学习等相关技术来挖掘和揭示隐含在这些数据中的一般性模式和规律。在过去的十年里,研究人员已经发现具有内在网络结构的系统广泛存在于自然界和人类社会中,并逐步揭示出现实世界中的复杂网络所具有的部分独特的结构特征。随着网络科学的兴起,基于网络和图挖掘的分析方法受到了越来越多的关注,并被广泛应用到物理、生物、政治经济、互联网络、工程开发和社会生活的各个领域。研究人员通过把现实数据抽象成网络结构,并利用来自图论、数据挖掘等方法来揭示图数据背后所隐藏的模式和交互规律,从而为人们对认知对象提供了一个前所未有认识。本文对在具有海量数据规模的数据中如何高效地挖掘出具有实际应用意义的结果,以及如何将这些结果进一步应用到相关领域等问题进行了深入研究。目前,开源的云计算平台Hadoop已经非常稳定,被广泛的应用于很多领域,MapReduce也被证实为是高效的计算方式。因此,本文重点是如何实现基于Hadoop的、高效的数据挖掘算法。具体内容包括有:1实现了基于Hadoop的关联规则算法,并且进行了相关实验;主要对比了三种不同的apriori算法的mapreduce实现。2实现了分布式图挖掘算法,并且进行了相关实验;主要研究的图算法是计算聚类系数和子图挖掘。结果表明,这些算法能充分利用各节点机CPU的资源,提高程序的运行效率,具有良好的扩展性,为以后在海量数据中挖掘相关模式提供了更好的解决方案。3论文最后详细介绍了我们所实现的并行社会网络分析算法包的结构以及里面所包含的相关算法。在这个算法包中,包括了弱连通分量、强连通分量、单元最短路径、K-core、最小生成树、点度中间度算法等等。
其他文献
目的:通过观察殷东风教授运用饮片治疗77例乳腺癌术后患者,总结其运用柴胡加龙骨牡蛎汤加减治疗乳腺癌术后的经验。方法:将77例2008年12月-2010年7月之间就诊于辽宁中医药大
背景:加速康复外科(enhanced recovery after surgery,ERAS)或快速康复外科(fast-track surgery,FTS)的理念,最早是在20世纪初由丹麦外科教授Henrik Kehlet提出,其中心思想是
手机报已经成为社会信息传播的最直接媒介之一,青少年期刊通过手机报这种新媒介来达到传统媒体与新媒体的融合,这在传播学上来说是一次新型传播模式的成功塑造。面向重庆中学
实体书店是一个城市的形象符码和文化地标。随着网络书店的冲击和读者阅读习惯的改变,中国实体书店经营困难、举步维艰。面对出版市场的不景气,中国实体书店的经营者纷纷以实
本研究以52名大学生和36名中专生为被试进行认知风格VICS和Extended CSA-WA测验中文版的修订,之后以初二年级的358名学生为被试进行认知风格测验和中小学生团体智力筛选测验,
超现实主义主张放弃以逻辑、有序的经验记忆为基础的现实形象,而去挖掘人深层心理中的意象世界,尝试将现实观念、本能、潜意识与梦的经验相融合。超现实主义的这种哲学思维造
随着重庆市“打黑除恶”斗争的不断深入,黑恶势力’犯罪引起了全社会的关注,成为重要的社会热点话题之一。黑恶势力犯罪对社会具有巨大的危害性和整体冲击性,严重危害人民群
社区检察作为一种“全新”的检察理念和检察模式,从其诞生起算不过二十余载。世界上第一个社区检察于1985年出现在美国纽约曼哈顿地区,在1993年美国检察官研究院(the America
随着三维动画技术的发展以及计算机软硬件能力的提高,虚拟现实技术在人们的实际生活中发挥着越来越重要的作用,而对群体仿真技术的研究也在公共安全领域起到了较为突出的作用
学术期刊是学者在进行科研工作时的重要参考文献来源。21世纪以来,我国各类学术期刊发展空前,数量巨大。为了从质量良莠不齐的学术期刊中遴选出一批质量上乘的优秀学术期刊,