云计算环境下的数据挖掘算法研究

被引量 : 0次 | 上传用户:echo1108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网以及计算机相关技术的飞速发展,包括照相技术、视频技术、电子商务等等,使得我们周围产生的数据呈爆发性增长,尤其在以智能手机为代表的移动互联网技术兴起之后更为明显。面对如此大规模的数据,数据的分析与处理成为巨大的难题,这便给了数据挖掘发展的机会。数据挖掘能够从这些海量的、异构的、随机的数据中提取对用户有价值的信息,发现用户感兴趣的模式。传统数据挖掘技术在处理海量数据时往往耗时过长,云计算的出现为数据挖掘带来了解决这个问题的途径。云计算物理上往往建立在大型的集群或者大规模数据中心之上,通过规模化的优势,云计算能够提供强大而廉价的计算能力,廉价的存储网络。而且,公有云更使得大量用户能够同时按需获取自己所需的计算资源。本文介绍云计算与数据挖掘相关的概念与特点,并着重介绍了开源云计算框架Hadoop。Hadoop是一个开源的搭建云平台的分布式计算框架。我们可以使用Hadoop轻松的搭建自己的集群而不需要了解复杂的底层通信机制。Hadoop有很多组件组成,其中最重要的两个部分是:分布式文件系统HDFS和MapReduce计算模型。HDFS可以提供一个安全可靠的文件系统,MapReduce则以消息通信模型为基础为用户提供了一个简单易用而不失高效的编程模型。MapReduce模型将任务分配给集群中的多个主机,并由主节点监控管理。为了将现有数据挖掘算法在Hadoop集群上完美运行,真正利用集群并行化的优势提高运行效率,需要针对这些算法进行改造,将它们以MapReduce编程模型重新实现。本文以协同过滤算法为例,将提出一种在Hadoop集群上运行的可扩展的基于项的协同过滤算法。利用Hadoop与MapReduce的特性,将计算量大的任务划分,使其并行运行在不同的结点上。将协同过滤只能串行的部分分阶段,并在这些阶段内部以MapReduce模型实现,因为并行化要求map任务处理的数据各记录的处理与其它无关。其中最主要的是将计算量最大的两个项的相似值的计算实现并行化。在map阶段提取两个项的评分,在reduce阶段求两个项的相似值,这两个阶段都是并行化的,这样算法的整体效率有了很大提高。类似地,对K均值算法,关键则是将求项与质心的距离并行。最后通过实验和分析,证明了Hadoop框架下的协同过滤与串行实现相比效率有了很大提高。通过以上研究,我们了解了云计算环境下数据挖掘算法相比与单机环境下数据挖掘算法的优势和不足。论文主要研究了怎样将传统数据挖掘算法改造,以利用开源分布式框架Hadoop自身的特点,实现并行化,提高效率。
其他文献
当代中外文学关系主要是通过翻译文学建立起来的。由于文学翻译的文化“操纵”性质,翻译文学不再是原本意义上的外国文学,而是经过本土化“改写”和“操纵”的“外国文学”。
随着同种器官移植在临床上的迅速发展,使器官需求量日益增加,伴随而来的同种异体器官的供应短缺也日益严重。异种移植是解决这一问题的潜在途径之一。猪凭借其解剖学和生理学
目的:探究泌乳素腺瘤耐药性的形成机制以及探究雌激素受体拮抗剂治疗的有效性.方法:通过设立体外随机对照试验,探究不同浓度下的雌激素受体拮抗剂对泌乳素腺瘤细胞生产增殖状况
“水”作为生命、生活中的重要对象,很早就出现在实用器物之上,并在唐以后成为山水画中的主要组成部分。早期实用器物上的“水”,以纹饰的形式出现,并在不同的历史时期不断的
本文论述了平潭县植被分类的原则与依据,植被分类的单位和系统。根据中国植被分类的原则和单位,将平潭县被划分为10个植被型、24个群系、69个群丛。
幸福是人生的主题和理想,是所有人的需要和追求。教师职业幸福感是教师职业生活的重要内容,也是衡量其工作生活品质的重要准则。关注教师的职业幸福,不仅有助于促进教师的专业发
随着高考课程改革的发展,对于能力的考查越来越受到研究者们的关注,尤其是科学探究能力。猜想与假设能力是组成科学探究能力的核心要素,对猜想与假设能力的考查也是考查科学探究
摘要:目前很多企业开始应用精益思想来提高企业的竞争力,但国内外关于精益六西格玛设计理论的系统研究较少,特别是针对新产品开发领域的。如何结合企业特点、行业特点以及产品
影、疑、云(匣)、以四纽在《切韵》音系中是四个完全独立的声母,多数学者将它们的音值分别拟为φ、η、γ、j。十四世纪以后,影、疑、喻(云、以)三纽在北方话中合流,其后进一
泛珠三角区域“9+2”省区在开展知识产权战略合作上具有良好的优势和机遇,同时也存在一定的制约因素。为加强泛珠三角区域知识产权战略合作,应构建相应的区域知识产权战略合作构