基于Hadoop平台的并行数据挖掘算法研究

被引量 : 12次 | 上传用户:hdyear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于科学研究、通信技术以及IT技术等的迅猛飞速发展,庞大的数据集合由GB往TB发展,甚至将来的ZB。云计算凭借其超强的计算能力和可靠的计算能力为数据挖掘技术的改进带来了一丝生机。本文采用Hadoop分布式云计算平台,基于该平台的两大核心技术MapReduce和HDFS,实现数据挖掘算法中分类聚类算法的并行化,通过实践论证了基于该平台的分类聚类算法具有良好的加速比、扩展性及分布式运算效果。主要内容如下:1.引入开源分布式计算平台Hadoop,包含它的两大核心技术MapReduce和HDFS。详细介绍了MapReduce和HDFS的运行机制及实现原理。给出数据挖掘技术的概念,介绍数据挖掘算法中的分类聚类算法;并根据现有的知识结合数据挖掘技术的特点分析数据挖掘的发展趋势。2.基于前面的Hadoop理论知识,完成了本文所需的高可靠Hadoop平台的搭建。针对1.0.0之前的Hadoop版本缺乏安全性认证,引入Kerberos的安全策略;针对HDFS的NameNode、MapReduce的JobTracker的单节点故障问题,使用了DRBD镜像块设备存储技术。最终搭建成功高可靠安全的Hadoop环境。3.着重介绍基于Hadoop平台实现K-Means聚类算法的主要思想和实现的代码;并且通过几组实验,实践说明基于云计算平台的K-Means聚类算法具有良好的扩展性能和较好的扩展性能。4.详细介绍了基于Hadoop平台的朴素贝叶斯分类算法的主要思想及实现代码;并对MapReduce化的朴素贝叶斯算法和改进前的朴素贝叶斯算法比较,分析改进后的分类算法的分布式运算效果。
其他文献
民族语言在和汉语的接触中通过两种方式影响汉语。首先是汉语民族方言通过母语干扰有规则有系统地影响汉语,导致方言的形成,其次是汉语民族方言通过母语转换变成汉语方言。对
近年来,中国积极筹建中国-东盟自由贸易区,并加强了与东盟的经贸合作,双方都把农业确定为重点合作的领域之一。中国的农产品和东盟相比较有无竞争优势,双方合作的潜力如何等
建立中国上海自由贸易实验区是新一届政府应对国际经济环境变化的重大举措,也是中国经济进一步深化改革的必经之路。本文从贸易、投资和金融三个领域深入分析了上海自贸区建
目的评价SAMe-TT 2R 2评分对非瓣膜性房颤使用华法林的患者中的抗凝疗效的评估作用,探讨SAMe-TT 2R 2评分与缺血性卒中事件、出血事件的相关性。方法以石河子大学医学院第一
热贡唐卡是藏域文化中所特有的绘画艺术形式,凭借其极致的装饰、严苛的造型、饱满的构图以及流畅的线条等艺术特色,再加上纯粹朴素的宗教理想和宗教美学,成为世界艺术宝库中
重农轻商为同处农耕文明世界的早期中西产业思想共同的基调和取向。重农的合理性蕴含了轻商的合理性。可是,轻商的合理性在早期中西方之间呈现出重大分化。早期西方产业思想
[目的]分析Ⅱ期翻修治疗全膝置换(total knee arthrop lasty,TKA)术后感染化验指标动态变化,探讨感染有效控制的敏感指标。[方法]自2004年6月~2008年4月本院共收治TKA术后延
中国旅游的地域竞争,在经历了景点竞争、线路竞争、城市竞争三个阶段后,已经开始进入到它的第四个阶段,即区域协同与跨区域竞争的新时代。面对我国旅游地域竞争的日益激烈和
抗日战争初期,顾颉刚在昆明《益世报》创办《边疆周刊》,并发表文章《中华民族是一个》,从而引起众多学者的争论。因为战争和政治的原因,这个讨论没有充分展开,但为以后民族
指明了创新型国家的三个基本定性特征:创新意识成为民族文化的基本成分,形成国家创新意志,国家体制能够自动促进创新;接着从国情、历史、文化和全球化趋势多方面考察了中国建