基于Spark的高效多数投票提升算法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:eva37
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,数据挖掘技术得到进一步研究与发展,尤其是分布式算法和在线学习算法运用而生。分布式存储和计算技术使海量数据得到快速存储,且计算速度得到大幅度提升。因此,将数据挖掘算法扩展到分布式得到快速发展,如Hadoop的Mahout组件,Spark的MLlib组件等。在线学习算法实时接收单条数据或小批次数据进行模型训练,其优点是节省内存、计算速度快,无缝适用于海量数据下的数据挖掘。在数据挖掘的分类任务中,基于Boosting的分类算法层出不穷。1995年Freund提出的BBM(Boosting By Majority)算法具有较好的分类性能,但该算法适用于单机小数据集,在数据量爆炸的今天,传统的BBM算法已经无法满足需求。本文主要贡献在两个方面:第一,基于BBM算法,使用Spark大数据处理技术,提出了BBM的分布式批数据处理算法BBM.Spark;第二,基于Online BBM算法,使用Spark Streaming分布式数据流处理技术,提出了Online BBM的分布式流数据处理算法BBM.Streaming。本文通过10个数据集,对BBM.Spark和BBM.Streaming进行了实验。在BBM.Spark实验中,研究了三方面因素对算法性能的影响:一、弱分类器个数,二、num-executors、executor-cores和partitions等参数,三、数据混洗占用的网络通信开销。实验结果显示,随着弱分类器个数的增加,分类正确率逐渐增加并趋于稳定。num-executors、executor-cores和partitions参数在不超过资源上限时,随着参数值不断变大,运行效率逐渐提高。在BBM.Streaming实验中,研究了两方面因素对于算法性能的影响并与Online BBM和VFDT进行对比:一、弱分类器个数,二、num-executors、executor-cores和partitions等参数。实验结果显示在分类正确率上Online BBM与BBM.Streaming、VFDT相差无几,在运行效率上,在小数据集上BBM.Streaming<online BBM<VFDT,在大数据集上BBM.Streaming>online BBM>VFDT。以大数据和数据流为基础,对Boosting进行研究具有积极意义。以分布式批处理大数据,可以充分利用计算机资源,发挥Boosting算法在大数据下更强大的分类性能。以单机或者分布式处理数据流,可以节约计算机内存,加快Boosting算法的运行。
其他文献
货币政策的变化影响资产价格、改变资产相对收益和公众预期,对家庭消费储蓄和资产配置两大金融决策产生影响。基于中国城市家庭相关数据的实证研究表明,以利率来衡量的货币政
根据橡胶气球的热力学性能及门尼模型理论,推导出橡胶气球膜在充气与放气两个过程中受到的附加压强与气球半径的关系,并以此推导出不同半径气球内部的压强,以及两个相互连通
随着工程技术的飞速发展,各种轨道安装的方法非常全面,安装方案已经十分成熟;但在大型水电站厂房桥式起重机轨道安装中,由于各种钢轨安装时电站大都处于前期施工阶段,且轨道梁施工
编辑先生:据某些文献报道,奎硫平对强迫症状可增强5-羟色胺再摄取抑制剂的疗效,是治疗的增效剂,但又有人认为奎硫平在治疗精神分裂症过程中可引起强迫症状.究竟奎硫平可治疗
高反射性材料主要能体现时尚、前卫与工业感,而美发机构则大都强调时尚、前卫、个性的装饰风格,因此高反射性材料如玻璃制品、金属、石材、陶瓷产品以及一些高分子材料成为美
为了满足安全可靠和经济合理双重目标,对高边坡病害特征性质的深入分析和对其治理工程方案的慎重选择非常重要。文章以汕梅高速公路新亨至北斗第二合同段预应力锚索施工为例,
从监测情况看,河南省防治非典型肺炎药品及相关商品价格波动分两个阶段,以4月24日为界,4月24日之前呈上涨趋势,之后呈下降趋势.
定价问题是中介企业的核心问题之一.本文主要目的是探讨中介企业如何对自己提供的中介服务进行定价.定性研究表明:中介对买卖双方收取的服务费用与以下三个因素有关1.双方在
目的:观察两种剂量甘露醇治疗方案对中等量幕上脑出血的临床疗效和早期血肿扩大的影响。方法:将我院自2013年1月至2015年3月收治的发病时间在24 h内且血肿体积为15~30 mL的急性