MapReduce和Spark两种框架下的大数据极限学习机比较研究

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:wxcplayer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了如下结论:1)在程序运行时间上,基于Spark的大数据极限学习机明显优于MapReduce的大数据极限学习机,通过理论分析以及对比不同平台的并行指标speedUp和sizeUp证明了这一结论,而且随着隐含层节点个数的增多,这一优势越发明显;2)在任务的同步次数上,基于MapReduce大数据极限学习机的性能优于基于Spark大数据极限学习机;3)在分类器的泛化性能上,基于MapReduce的大数据极限学习机与基于Spark大数据极限学习机并无本质的差别;4)在需要读写的文件数目上,基于MapReduce的大数据极限学习机需要读写的文件数目与Map任务个数有关,而基于Spark的大数据极限学习机需要读写的文件数目与分区数有关.这些结论对从事相关研究的人员,特别是从事大数据机器学习研究的人员具有较高的参考价值.
其他文献
去年年底,党中央、国务院颁布了《关于实行党风廉政责任制的规定》。半年多来,各级党委、政府和纪检监察机关为落实《规定》,做了大量富有成效的工作。据初步了解,全国绝大
云资源负载预测是云计算系统体系规划的一个重要组成部分,其预测效果直接影响到云计算系统的经济性和服务质量.为保证基础设施及服务(Iass)模式下资源有效分配和高效调度,实
各位是在恰当的时机选择了一个恰当的工作岗位。希望大家能够在今后交易所的发展过程中,发挥你们的才干,最大限度地发挥作用,实现你们的理想,把深交所建设得更好。 You have
现有大量慢阻肺患者跟电子病历,但偏远地区缺乏相关有经验的医生且患者缺乏对疾病的认识.知识图谱利于知识的展示,利于医生学习新的医学知识,也能普及患者对疾病的认识,因此
按照中央关于农村基层组织整顿和建设的要求,辽宁省黑山县委从本地实际出发,以化解村级债务为突破口,打开了新一轮农村基层组织整顿和建设工作的局面。 明确工作目标 1995年
大豆抗胞囊线虫的表型鉴定工作量较大,鉴定结果易受环境影响,是抗源筛选和抗病品种选育的限制因素之一.不受时间、环境限制的分子标记鉴定为抗病鉴定提供了一种高效快捷准确
随着生物技术的不断发展,越来越多的基因表达数据被获取.为了对这些数据进行聚类分析,本文在深入分析传统的聚类算法之后,提出了双精英遗传聚类算法.该算法通过精英策略来保
推荐系统旨在解决项目的信息爆炸问题并为用户提供个性化推荐.通常,用户交互的历史项目对于用户交互的下一个项目是有着不同的影响的.为此,本文提出一种序列感知深度网络(Seq
目的 探讨2009年北京市甲型H1N1流感发病的地理区域相关性和聚集性,为今后传染病发病的空间自相关性分析提供参考依据.方法 利用OpenGeoDa 1.0.1软件进行空间全局和局部自相关性分析,呈现2009年甲型H1N1流感空间聚集区域.结果 2009年北京市甲型H1N1流感发病分布不是随机的,呈现显著的空间聚集,即高发病区与高发病区邻接,低发病区与低发病区邻接,表现出一定的空间自相关性.全局空
为系统鉴定黄淮海地区大豆种质资源对大豆疫霉根腐病的抗性,本研究采用改进的黄化苗下胚轴接种方法,利用8个大豆疫霉根腐病菌株对2017和2018年从黄淮海地区各育种单位收集的3