基于MapReduce的Bagging决策树优化算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:ycgwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduc
其他文献
各地级以上市人民政府,省政府各部门、各直属机构:根据《国务院关于加强文化遗产保护的通知》(国发[2005]42号)和《国务院办公厅关于加强我国非物质文化遗产保护工作的意见》
文章主要基于RS485串口,以OMRON PLC CJ2M-CPU12为例,专注于PLC互连的通讯协议的设计,为实现生产系统中PLC之间灵活自主的通信提供一个可靠而高效的解决方案。
随着我国社会发展的日益加快,在科学技术的引领下信息化的进程正在各行各业中创新。将初中函数与信息化相结合,对于提高教学质量,培养学生思维能力都有积极的帮助。通过简单
在当前的医疗信息化建设中,电子医疗记录的存储与共享给病人带来了隐私泄露的风险,从而造成名誉损害和财产损失。现有的多数保护隐私的医疗记录存储与共享方案使用了中心化的
数字微流控芯片广泛用于生命科学领域,它对可靠性的要求很苛刻。由于数字微流控芯片的可重构性,在测试诊断的故障数小于一定比例时,电极阵列会被重构以撇开故障单元继续使用,
国家正在采取稳定出口退税、加大融资支持等七大举措。进一步推动我国汽车零部件出口。国家将保持汽车产品出口退税政策稳定,坚持“征多少,退多少”的原则,维持17%的出口退税率不
<正> 健康家畜正常屠宰放血后,肉品的颜色因动物的种类、品种、年龄、肥育及其他因素而有所不同。原因是各种动物以及每种动物的不同肌肉中,肌红蛋白的含量都不是恒定的。如
记述甘肃省蝶类新记录23种,隶属于5科22属,其中:蛱蝶科16种,眼蝶科2种,弄蝶科1种,灰蝶科和粉蝶科各2种。
各地级以上市人民政府,各县(市、区)人民政府,省政府各部门、各直属机构:为贯彻落实《中共中央国务院关于推进社会主义新农村建设的若干意见》(中发[2006]1号)和《中共广东省
各地级以上市人民政府,各县(市、区)人民政府,省政府各部门、各直属机构:《关于贯彻(国务院办公厅关于印发文化体制改革试点中支持文化产业发展和经营性文化事业单位转制为企