基于特征约减的随机森林改进算法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:he110521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林(Random Forest, RF)算法虽应用广泛且分类准确度很高,但在面对特征维度高且不平衡的数据时,算法分类性能被严重削弱。高维数据通常包含大量的无关和冗余的特征,针对这个问题,结合权重排序和递归特征筛选的思想提出了一种改进的随机森林算法RW_RF(ReliefF&Wrapper Random Forest)。首先引用ReliefF算法先对数据集的所有特征按正负类分类能力赋予不同的权值,再递归地删除冗余的低权值特征,得到分类性能最佳的特征子集来构造随机森林;同时改进ReliefF的抽样方式,以减轻不平衡数据对分类模型的影响。实验结果显示,在特征数目很多的数据集中,改进算法的各评价指标均高于原算法,证明提出的RW_RF算法有效精简了特征子集,减轻了冗余特征对模型分类精度的影响,同时实验也证明了改进的算法对处理不平衡数据也起到一定的效果。
其他文献
<正> 支气管肺疾患引起的哮喘,临床上最多见的是支气管哮喘和慢性喘息性支气管炎(以下简称慢喘支)。近年来国内外很多学者认为慢喘支本身就是慢性单纯性支气管炎合并支气管哮
根据2011年版思想品德课程标准的要求,借鉴高中思想政治学科核心素养研究,思想品德学科应当以"公民素养"为核心素养,着力培育学生的"心理健康、思想品德、法治意识、国家认同
1问题的提出拉床作为加工金属套筒类零件内壁螺旋渐开线的关键设备,一直是相关企业的核心设备,我公司在1995引进过一台老式继电器控制的液压拉床(L6120)。长期以来,在使用过
从事知识产权实务的人,包括当事人、行政主管机构、纠纷代理或审理机构等,对一般知识产权纠纷案件并不陌生.但在实践中,除单一类型纠纷(如权属或侵权纠纷、许可合同纠纷、行
本文通过对科学发展观及其理论渊源的分析与梳理,论述了科学发展观重大的理论与实践意义。文章共分五部分。第一部分,讲科学发展观的理论内涵。第二部分,从哲学层面论证了科
商务英语的起源是普通英语,结合了普通英语与商务领域专业知识。因此,商务英语除具有普通英语的语言学特征之外,又具有其独特性。在长期的使用和发展过程中,商务英语形成了自
目的:从三颗针中优选盐酸小檗碱的提取分离工艺。方法:采用比色法测定盐酸小檗碱的含量,以盐酸小檗碱的得率为指标,考察石灰乳的浓度,食盐的浓度,溶液p H值三个因素对提取分离
伴随着世界和我国社会的进步,改革开放加深,中小企业在中国特色的经济体系中地位逐渐地提升,现在已经成为我国经济快速增长和社会主义市场经济逐步完善的重要因素。伴随着发
该研究通过对青藏高原珍稀濒危药用植物掌裂兰(Dactylorhiza hatagirea)的气候、地理、土壤和群落等生境方面的研究,分析了导致其濒危的主要因素。结果表明:(1)掌裂兰喜湿润
<正>乙型肝炎病毒(HBV)除对肝脏有严重损伤外,还可以通过免疫机制损伤肾脏,从而导致乙肝病毒相关性肾炎.本文报道乙肝患者尿微量白蛋白检测的临床价值.对象和方法一、对象:(