基于云平台的数据挖掘算法的研究与实现

被引量 : 40次 | 上传用户:qxw4721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的发展,每天产生的数据量成指数级增长。如何从海量数据中挖掘有用信息成为公司面对的一大难题。数据挖掘算法对数据进行处理,挖掘隐藏有用信息,有利于公司作出发展决定,但目前的挖掘算法处理海量数据需要耗费很长的时间或无法处理海量数据。将传统算法迁移到云平台进行并行化改进可以有效的解决该问题。Hadoop是Apache开发的一种分布式系统框架,底层的HDFS提供了具有高容错、高吞吐率的文件存储读写;MapReduce提供了一种并行化编程框架,用户无需了解分布式并行化编程细节,只需编写Map和Reduce类就能实现分布式程序。Hadoop的海量数据存储平台和简单的并行化计算平台,为传统数据挖掘算法能够处理海量数据提供了基础。本文研究Hadoop平台技术和常见的数据挖掘算法,利用Hadoop集群并行处理数据的能力对K-Means算法、协同过滤算法进行并行化改进。主要工作如下:(1) K-Means算法是一种常见的聚类算法,按照元素之间的相似性将原始数据划分为多个簇。在本文中,针对聚类算法K-Means依赖于k值和初始中心点的缺陷,提出了基于采样和密度的改进K-Means算法。通过采样和密度来确定K-Means算法初始k值和初始中心点,并且基于Hadoop平台进行并行化改进。通过实验验证,改进后的K-Means算法具有很好的并行性。(2)协同过滤算法是目前用的最多的一种项目推荐算法,通过计算用户之间的相似性找到具有最高相似度的k个邻居,然后通过邻居对项目的评分为用户推荐项目。在本文中,针对用户评分的稀疏性,提出了一种基于用户相似度和属性权值的混合推荐算法。通过对用户评分记录的学习,求出项目属性的权值,通过属性的权值并结合用户相似度来推荐项目,最后将算法移植到Hadoop平台。通过实验验证,改进后的协同过滤算法比原始算法具有更好的精准度和并行性。(3)目前,Hadoop平台主要通过命令行进行操作,这对普通用户具有一定的难度。本文设计实现了基于Hadoop平台的数据挖掘系统。该系统将数据挖掘算法和Hadoop平台细节进行封装,对外提供Rest接口,用户通过Rest接口调用并行化的数据挖掘算法进行数据分析,无需了解底层的具体实现。
其他文献
伴随着网络和信息产业的高速发展,越来越多的信息量出现在人们面前,许多信息处理技术也陆续出现,作为其中的基础项目之一,信息抽取也成为了人们研究的热点技术。本文所做研究
国防知识产权具有显著的资本属性特征,是激励创新、转变经济发展方式、建设创新型国家的重要战略资源。解决当前国防知识产权资本化不畅的问题,不能仅依靠政府推动、政策引导
合理设计医保支付方式,不仅关系到医保资金管理、医疗质量和广大民众的健康,还会影响整个国民的经济的再分配和发展速度,是保证医保和国民经济健康有序发展的关键一环。通过
在高等职业教育发展的今天,高等职业教育如何办出特色一直是关注的热点,其中包括中职与高职的相互衔接。为了对现阶段中高职衔接存在的问题、原因与改进思路进行探讨,我们在福建
Ti3SiC2是电和热的良好导体,具有高的耐氧化性和低的摩擦系数,有可能在电刷和电极材料中取代石墨,成为Cu基复合材料理想的增强粒子。研究表明,高温下Ti3SiC2将与Cu发生剧烈反应。
企业陷入财务危机是一个逐步形成,逐渐发展并不断恶化的过程。若在财务危机发生的初期,能及时发现征兆并充分展现财务危机恶化的动态过程,对企业及其利益相关者来说具有非常重要
物联网创新驱动发展有助于发达省域率先实现弯道超车。发达省域物联网创新"弱驱动"的重要根源是"泛政府行为"低效,这涉及泛政府初始需求、三重垄断、投资冲动、科研体制4个方
在过去几十年中,由于对干旱半干旱地区的不合理开发、工农业用水的急剧增加,导致相继发生了罗布泊干涸、艾比湖水域萎缩等重大环境演变事件。而本文的研究区博斯腾湖流域包含
本文借鉴欧美等发达国家的流通产业转型发展经验,重点从流通产业结构优化,流通产业经营体制创新,流通产业政策的适时调整,流通产业的科技促进作用,流通产业专业人员的培养五
泰戈尔是印度文学史上的明珠,他的诗歌备受人们的追捧,尤其是泰戈尔在诗歌中表现出的与众不同的构造、思路和对哲学的理解。泰戈尔在诗歌中处处洋溢着对自然、生态的赞美,体