基于YARN的数据挖掘系统的设计与实现

被引量 : 26次 | 上传用户:chenfengling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的飞速发展,我们迎来一个全新的“大数据”时代,其数据具有数据量大、产生速率快、时效性强、复杂性高等特性,数据处理的难度也越来越大。人们亟需功能强大、通用性强的工具在海量数据中需找有价值的知识,帮助人们进行决策,创造更大的价值:数据挖掘可以方便的从大规模数据中提取代表知识的模式,在实际应用中发挥着重要作用。云计算的提出,在很大程度上解决了传统单机处理模式在面对海量数据时的局限性,为海量数据挖掘提供了便捷的道路。本文首先深入研究了开源云计算框架的主流趋势,进行了实际的实验对比与研究,对Hadoop1.0的局限性进行分析,对MapReduce与Spark优缺点进行对比,将YARN与其他资源管理框架进行了对比,对实时处理技术Storm进行阐述。其次,设计完成了数据挖掘系统架构图,设计了基于YARN的数据挖掘系统云平台层,并进行了云平台层的搭建,对Hadoop2.0向后兼容性进行了探索,完成了已有挖掘系统向YARN平台的迁移工作,基于MapReduce和Spark完成了多种并行数据挖掘算法的设计与实现。最后,本文在对系统整体进行功能性测试的基础上,完成了云平台层及实时处理模块的性能测试。测试结果表明:进行系统迁移后的数据挖掘平台各个模块可以正常、稳定地运行;可以基于YARN搭建多计算框架并存、资源利用率更高的云计算平台;MapReduce针对批处理提出,适合于大规模离线数据处理,Spark在迭代式算法、交互式数据挖掘算法等应用中性能要优于MapReduce,而Storm在流式处理中可以保持较高的处理速率,并将错误率控制在很低的范围内,对于流式处理具有重要的意义。
其他文献
机器学习是人工智能领域的一个重要学科。近年来,深度学习作为一类新兴的多层神经网络机器学习算法缓解了传统训练算法容易陷入局部最小值的问题,成为机器学习领域的热门方向。
自上世纪60年代以来,集装箱运输凭借其在装卸效率和运输质量方面的优势而成为不可替代的主要运输形式,集装箱码头也因此得到了快速发展。岸边桥式起重机是完成集装箱码头装卸任
硅钢薄带是一种广泛应用于电力、电子工业的重要软磁材料。相比于传统硅钢片材料,6.5wt%的硅钢薄带具有更高磁导率、低磁致伸缩和低铁损等优异的软磁性能及高频特性,对降低变压
随着移动互联网和电信增值业务的快速发展,电信业务类应用需求量越来越大。传统移动应用开发模式下,应用开发人员需要自己先开发一些应用基础能力,比如界面框架、数据库创建
<正>1概述浙江仙居抽水蓄能水电站地下厂房共安装4套额定出力为375 MW的混流可逆式水泵水轮机,座环蜗壳设备由哈尔滨电机厂有限责任公司提供,由我部进行安装。水压试验按照哈
本论文研究了不同施氮水平下接种丛枝菌根真菌(Arbuscular mycorrhizal fungi,AMF)根内球囊霉(Rhizophagus irregularis)对欧美杨107(Populus×canadensis?Neva‘)生长、光合作用、
网络管理的理念随着信息技术的发展在发生着深刻的变化。其中,由于面向服务体系结构具有松耦合性、良好的互操作性、服务和数据的可重用性、服务组合的易操作性、以及很大程
随着智能家居、车载语音系统以及各种语音识别软件流行,语音识别逐渐走进人们的视野,凭借其实用性准确性得到了广大用户的喜爱,同时语音识别作为人机交互的重要接口,成为人工
<正>2001年2月27日,博鳌亚洲论坛成立大会在海南博鳌举行。2002年4月12日,博鳌亚洲论坛首届年会在博鳌举行。此后,博鳌开始从一个默默无闻的小镇变成了担当国家外交重要角色
猪的脂肪沉积的多少严重影响着猪肉的生产效率、猪肉品质、繁殖性能以及消费者对猪肉的选择。本研究通过B型超声波背膘仪对松辽黑猪和长白猪群体进行活体背膘厚度的测定,筛选