改进随机森林模型参数优化算法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:fengxiaogang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林作为一种组合分类技术,因其抗噪声能力强、易于并行化等诸多优势被广泛应用于人工智能、机器学习、模式识别等领域。但随机森林在模型建立过程中优劣程度不同的子树以相同权重进行投票预测,使得模型的准确率和泛化性能均有所降低,同时在模型训练过程中超参数较多,传统的Grid search搜索方法无法有针对性的快速寻求到全局最佳参数组合。针对上述问题,提出一种改进随机森林模型参数优化算法。首先,通过将逻辑回归模型融入到子树建立的过程中,利用逻辑回归的高效性,在每棵子树的袋外数据上计算错误率;其次,剔除错误率超过一定阈值的子树以加快模型的预测速度,同时利用对数几率的推导关系将错误率转换为子树权重,在最终模型的投票预测表决中,使错误率较低的子树起较大的作用,错误率较高的子树起较小的作用;最后,将人工鱼群加速算法应用于改进随机森林模型参数优化中组成一个完整的数据分类模型。在Bank、Covtype、Credit、Connect四份UCI数据集上的实验结果表明,相比于原始随机森林算法,在AUC值及综合指标F1值上,平均分别提高了2.14%、1.98%,与Adaboost算法相比平均分别提升了1.74%、2.23%。在算法预测性能方面,与随机森林和Adaboost相比时间消耗分别降低了37%、29%,有效的改善了模型的预测性能。模型参数选择上相比于Grid search搜索方法在Bank、Covtype、Credit、Connect、Font、Active六份UCI数据上,时间消耗平均降低了25.5%,准确率平均提升2%~3%,为随机森林算法的参数调优提供了一种切实可行的方法。该论文有图27幅,表16个,参考文献55篇。
其他文献
近年来,随着边缘计算技术以及云计算技术的迅猛发展,越来越多的学者和研究人员致力于将边缘计算平台和云计算平台进行整合,实现“边云一体化”。因此,如何在边云一体化环境下
推荐系统是当下解决信息超载问题的有效方法,在经过学术界和工业界多年共同的研究和应用后,取得了卓越的研究成果。但是在移动互联网的时代中,数据量呈现几何式增长,传统推荐
随着计算机互联网的飞速发展,数据呈现指数级增长,越来越多的用户选择将数据存储在云服务器。云存储减轻了用户的存储管理负担,为用户提供灵活的云计算服务,但是作为一个第三
基于当前购房行为的复杂性和信息不对等性,以满足群成员对地产信息需求为目的的“长沙看房微信群”应运而生。群成员出于信息和情感的需求加入“看房群”,根据群成员购房需求上的差异,将本群内的成员分为刚需类购房群体、改善类购房群体和投资类购房群体;群内信息丰富,主要可分为开盘信息、楼盘推荐、购房资质研讨、楼市政策探讨和其他非地产相关信息五类。不同类型的群成员在购房需求上存在差异、群内不同的传播信息影响群成员
马其顿有着非常独特的地理位置,它地处希腊世界的北部,区域内包括上下马其顿两个部分,且双方长期处于分裂的状态,直到国王亚历山大一世时期才被统一。此外,马其顿与诸多蛮族部落比邻而居,形成了极为彪悍的民风,与主流的希腊城邦有所区别。分裂的政局与边缘的地理位置,使得马其顿民族虽然一直同希腊的城邦保持联系,但是在很长一段时间内仍然没有被认同为希腊人的一员。这种局面直到腓力二世统治的时期才发生了改变。腓力二世
目前,随着科研设施和仪器规模不断扩大,覆盖范围不断增长,综合效益得到了快速地提高,但是也出现了仪器闲置、浪费等利用率较低的情况。为了更好的提高仪器资源利用效率,政府提出搭建统一的网络管理平台,实现科研设施与信息资讯共享的全链条有机衔接。为响应号召,仪器共享平台迅速在多高校搭建完成,特别是预约、管理、监督与评价等科研设施模块已经投入使用,但资讯共享模块中又出现了点击率不高,兴趣不大的问题,推荐的新闻
近年来,城市道路管理部门经常会在某些路段设置一些路障或者标志物,有的是平面图案,而有的是一些立体指向标识。这些平面图案具有高度的立体性和真实性,导致辅助驾驶系统无法判断其真实性,在路面产生突发状况时,很可能因为误判造成严重事故。本文对如何区分道路平面图案与立体目标进行了研究,并给出了一种识别方法。主要研究内容如下:(1)通过学习平面图案和立体目标的区别,利用射影不变量这一稳定特征,将计算机视觉理论
传统的成本性态分析理论认为,企业业务量与成本费用之间是线性关系。该成本性态理论成立的前提条件是企业处于一种理想状态下,但是现实中很多外在因素会对公司成本费用的管理
我国经济发展迈入速度放缓、结构优化和动力转换的新常态阶段,稳增长、调结构、重质量是当前发展的重点。同时,新一轮的科技革新和产业升级蓄势待发,学科多点突破、产业交叉融合的现象日益明显。知识、服务、信息、技术要素的强关联效应和外溢效应推进了产业融合、催生了一批融合型的新产业、新业态、新商业模式,从根本上变革了生产、生活方式。融合深化模糊了三次产业的边界,赋予了产业结构升级新的特征。本文探索产业融合深化
在信息总量爆炸式增长的背景下,互联网用户需要更快捷的方式从海量的信息中获取有价值的一部分,而问答系统就是可以完成这种任务的工具之一。目前,问答系统在诸多场景下都得到了应用,开放领域的问答系统可以作为一个强化版的搜索引擎,对用户输入的问题作出准确回答。同时,在各个领域的客服系统中,问答系统也有着广泛应用。相比于雇佣人工客服的方式,部署在线问答系统可以有效降低人工成本,同时能够保持长期在线。与此同时,