随机森林的特征选择和模型优化算法研究

被引量 : 0次 | 上传用户:cninfor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习的兴起,为分类方法的设计提供了一个新的研究方向。随机森林是在众多集成方法中逐渐发展起来的一种分类器集成学习的方法,在实际中得到广泛应用,成为数据挖掘、人工智能、机器学习、模式识别等领域的研究人员以及工程应用领域中的技术人员共同关心的一个研究热点。随机森林在降低分类系统泛化误差、简化分类器设计等方面表现优良,但是随机森林方法并不完美,从实际应用中看,还有着大量进一步提升精度,降低泛化误差的需求。本文在介绍集成学习和随机森林的研究现状、算法思想的基础上,重点分析了随机森林的优缺点,并提出了一些改进的方案,进行了大量的实验分析,完成了以下研究工作:(1)在分析了随机森林集成的强度和相关度之间的关系的基础上,提出了一种新的特征选择算法。为了降低随机森林的泛化误差上界,提高森林整体性能,在综合考虑强度和相关度之间相互影响的关系后,利用卡方检验进行特征的相关性评估,依据评估的结果在特征空间进行有区分的随机选择特征。经实验验证,这种方法在保留原始算法所有的优点的基础上,可以进一步的降低随机森林的误差上界,提高泛化精度;(2)在理解单个分类树与集成的整体效果之间的关系后,进一步对分类树之间关系进行了分析,设计了一种基于层次聚类的模型选择算法。通过将符合度量标准的分类树不断凝聚在一起,再从中寻求代表树进行参与森林的集成。提出了树与树之间的相似性度量,并在实验中使用多种度量比较分析,该模型选择算法可以提高树与树之间的差异度,利用较少的树就可以提高森林的分类精度;(3)在对随机森林的特征选择和模型选择进行一定的研究后,对进一步研究提出了一些需要进一步研究的方向,对今后随机森林的研究具有一定的指导意义。
其他文献
从现有材料来看,明末山阴闺媛王端淑有考的半世生平可细致地分为闺阁无愁、家国并忧、飘蓬转徙、名起身隐四个阶段。其中,文学创作与出入社会作为她的生活方式,不仅为她赢得
税收信息化的含义包含两方面的内容,即用现代信息技术代替人工完成大部分的税收工作,以计算机网络为平台实现税收的各种管理工作。它与税收征管工作密不可分,着重于信息的控
本研究论文从研究分析我国建国后不同年代的青少年学生体育评价标准的历史演变、发展及实施入手,对我国在学校实施的具有代表性的五种体育“标准”进行比较和分析,论述了它们
具象绘画作品中的视觉符号像语言符号一样包含了能指、所指、意指过程等一整套系统。当艺术家将其内心精神世界的创作指涉外化为画面时,画面的视觉符号也就产生了。在具象绘
矩阵式变换器是一类性能优良的功率变换器,允许频率单级变换,无需大容量的储能元件,输入功率因数接近1并可自由调节,能量可双向流动。矩阵式变换器本身也是一种柔性的、通用
为观察放疗联合益气解毒颗粒治疗鼻咽癌的临床疗效及其机制,进一步提高鼻咽癌的综合治疗的疗效,本文从以下三个方面进行了探讨。1.理论研究包括古代中医对鼻咽癌的认识,现代
本研究旨在探索不同情绪类型面部情绪的识别水平,不同情绪类型面部表情识别中情绪信息上半脸与下半脸的不对称性以及不同情绪类型面部表情识别的眼动特征。研究运用JACFEEZ面
本文运用史籍调查、实地调查访问、比较研究等研究方法,在占有较丰富文献资料的基础上,借鉴前人在体育文化文化区研究模式,对清代内蒙古体育文化区进行研究。首先从内蒙古自
研究背景Casley-Smith等人阻断猫颈淋巴管,见到虹膜的血管周隙扩张,其中充满了富有高蛋白的水肿液,认为这些扩张的血管周隙是引流眼前房的管前淋巴通道。眼前房及球后间隙与
研究三元醇扩链剂对脂肪族聚氨酯弹性体力学性能和血液相容性的影响。在所采用的“一步法”合成路线中,硬段为异佛尔酮二异氰酸酯(IPDI)和小分子扩链剂,软段为聚四亚甲基醚二醇(PT