基于Hadoop2.0的数据挖掘算法并行化研究

被引量 : 22次 | 上传用户:pie1011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会正在经历一场重大的时代变革,以互联网行业为代表的各行各业正被铺天盖地的庞大数据所覆盖,尤其是社交网络、电子商务和移动通信将人们带入了一个以“PB”级为单位的数据信息新时代。在这个大规模生产、分享和应用数据的时代里,以“云计算”技术为核心结合了数据挖掘、人工智能等一系列技术的整体方案成为了我们解决大数据难题、发掘数据价值、征服数据海洋的“巨大动力”。Hadoop平台是Apache Software Foundation旗下的一个开源分布式系统。它的软件库是一个允许使用简单的编程模型对集群计算机内的大数据集进行分布式处理的框架,它设计成可以从单一服务器纵向扩展到成千上万的服务器,而其中的每个服务器都提供本地计算及存储。它不依靠硬件来提供高可用性,软件库本身具有能够检测和处理应用层的错误的能力,因此,可以在计算机集群的顶层提供高可用的服务,其中的每个节点都允许失效。近几年来在互联网巨头的带动下,Hadoop逐渐被互联网、金融、银行、教育、政府机关等众多行业所接受、尝试和应用,成为在大数据处理方面呼声最高、应用最广的云计算平台。决策树分类算法和k-means聚类算法是数据挖掘领域中应用最广泛的两种挖掘算法,能够将原始数据中隐含的、未知的、有用的信息和知识提取出来,让人们更好地利用数据所带来的巨大价值。本课题立足于已有的云计算平台,设计了基于Hadoop2.0的数据挖掘算法并行化的方法,通过将串行的挖掘算法移植到Hadoop平台上,以此来解决传统的数据挖掘技术面对海量数据无法进行有效挖掘的难题。本论文首先介绍了研究内容的两大技术背景:云计算和数据挖掘,结合两者提出了基于云计算平台的数据挖掘算法并行化的思想。然后,深入地研究和探讨了云计算平台Hadoop2.0的架构原理和内部实现细节。在此基础上,本论文着重地分析了两大类型的数据挖掘算法:决策树分类算法和k-means聚类算法,并根据它们的优化算法:SPRINT算法和canopy算法,设计了基于Hadoop2.0平台的并行化方案,详细地描述了算法并行化实现的具体步骤。最后,通过实验来进一步验证基于Hadoop2.0平台的数据挖掘算法并行化的性能效果。
其他文献
如何引领老师和学生从学科本位的思维模式中解放出来?北京第二实验小学从重视学习实践,开展学科沙龙,到重视学科整合,开设综合学习课,最后发展到主题研究课的形式,另辟蹊径,
面对日趋复杂的电磁环境以及变化繁多的雷达特征信号,现有的雷达侦察接收系统对多种信息的处理显得力不从心,本文从接收机前端考虑,对其中的一种解决方法——自适应的接收机
采用均匀设计方法探讨乙醇浓度、用量、浸泡及回流时间对人参提取及化学成分的影响。结果证明,乙醇浓度对人参提取率起主要作用。
专业制造模具零配件的台湾铭振精密工业股份有限公司,自1989年成立以来,一直秉持“一次就做到最好,要做就做到不退货”的负责经营理念。在其专业领域中,兢兢业业,本着“以客为尊”
脑卒中是导致死亡和残疾的主要原因之一,自组织纤溶酶原激活物(tPA)是缺血性脑卒中发病4.5 h 内的唯一治疗方法。近年来血管内血栓切除通过快速再通闭塞血管,重建组织灌注,将
爱国主义是一个历史范畴 ,在不同的历史时代中具有不同的时代特色。中华民族爱国主义的现代逻辑演进主要是由于在本国与他国之间、祖国与国家之间、民族与民族之间、个人与祖
近几十年来,在科技的高速发展和社会不断进步的同时,人类活动也给大自然造成了巨大的压力,大量温室气体和污染气体的无节制排放使得大气中相关气体的含量急剧增加,而温室气体,特别
本文着重对江苏省营业税改征增值税试点前后两个税种的征税对象、征税范围、纳税人、税率和征收率等方面进行了比较分析,并就试点行业税收的负担变化进行了分析,以期为各相关
第四方物流近来备受追捧,很多学者对此展开了多项研究。本文在研究国内有关资料的基础上,结合我国的实际情况,提炼出影响第四方物流发展的四个因素:物流基础设施、第三方物流