基于粗糙集的随机森林算法优化研究

来源 :成都理工大学 | 被引量 : 3次 | 上传用户:kingboxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,单分类器技术已经不能满足日益复杂和大量的数据需求;因此多分类器变得更加重要和有效。多分类器的思想就是组合多个单分类器,然后根据多个单分类器的产生的结果进一步得到最终结果。随机森林就是一种多分类器。随机森林算法随机性之一是从整体特征中随机选择一定数量的特征,以尽可能地减少树之间的相关性,但数据中通常存在冗余特征,因此会对随机森林模型的泛化能力造成影响。针对随机森林特征选择时数据集中存在冗余特征的情况,通过对传统随机森林算法的分析,决定采用粗糙集对传统随机森林算法进行优化改进。粗糙集可以简化数据并保留数据的最小知识,同时保留关键信息。粗糙集能对随机森林特征选择时数据集中存在较多冗余特征而影响模型的分类效果的问题进行有效的处理。基于此,本文选择用基于遗传算法的粗糙集属性约简方法对随机森林算法进行优化,在随机森林选取特征之前就剔除掉总体特征中的冗余特征,从而提高随机森林算法的效率。本文完成了以下几个方面的工作:(1)介绍了属性约简研究现状、粗糙集属性约简研究现状和随机森林国内外研究现状;详细介绍了粗糙集基础理论。详细研究了随机森林算法的基本数学概念、性质;对决策树算法进行了详细的研究,介绍了决策树的产生以及ID3、C4.5、CART算法;在构建决策树的基础上,研究了随机森林算法构建过程,对随机森林数据集的产生以及单个决策树的构建以及随机森林算法的执行过程进行了详细的分析。(2)针对随机森林在特征选择时存在冗余特征的问题,将基于遗传算法的粗糙集属性约简方法与随机森林分类思想结合,提出了一种基于遗传算法的粗糙集和随机森林结合的分类预测算法;对基于遗传算法的粗糙集属性约简方法在多个UCI数据集上进行了属性约简,同时与PCA、CHI2在约简后模型分类效果进行了对比实验,选用平均准确率作为客观评价参数,来评价三种不同的约简方法效果。(3)通过编程实现基于遗传算法的粗糙集和随机森林结合的分类预测算法,主要通过与经典的随机森林算法进行比较,在葡萄酒数据集和宫颈癌数据集上测试其效率,选择分类准确率、运行时间、ROC曲线、AUC均值、OOB以及oob_error作为评价指标对其进行综合评价;同时,在多个机器学习数据集上与多种机器学习算法进行对比分析,选择平均准确率作为评价指标,验证了优化后随机森林算法的在分类方面的有效性。本论文在粗糙集和随机森林原理研究的基础上,采用基于遗传算法的粗糙集属性约简方法优化随机森林特征选择,对随机森林的分类效果有较大的提升。因此,基于遗传算法的粗糙集属性约简和随机森林分类相结合的方法,不仅具有一定的方法创新,同时在实际应用中也具有重要价值。
其他文献
随着全球化能源的紧缺,太阳能光伏产业已成为发展速度最快的朝阳产业之一。近几年,德国Q-Cells、无锡尚德、江西赛维LDK、常州天合、保定英利等太阳能光伏龙头企业迅速崛起,
经我市各有关方面的积极努力,日前,天津市农业生物技术研究中心通过了市科委组织的专家验收,组建工作圆满完成.经市科委批准,天津市农业生物技术研究中心正式成立.
研究目的探讨TNF-?及其相关NF-κB信号转导通路在大鼠放射性肺损伤中的变化及其意义。进一步探索放射性肺损伤的分子机制。研究方法随机将48只健康的雄性SD大鼠分为两组:正常
随着中国教育供给方式的日趋多元和家长对学校选择性的增加,教育品牌的竞争力已不容忽视。在市场条件下,品牌已经成为学校赢得家长和求得生存与发展的关键,是学院核心竞争力
期刊
明末清初的文学家黄周星,身遭国变,颠沛流离,但创作之志不衰。他晚年创作的《人天乐传奇》通过轩辕载的生活经历,讽刺了社会黑暗、世态炎凉;反映了作者自由平等的爱情理想、
2007年7月沈阳市新民一肉食鸡养殖户饲养的4000只肉鸡突然出现大批死亡。该养殖户饲养的肉鸡为双A+肉仔鸡,30日龄,采食量下降明显,连续3d,平均每天死亡20多只,鸡舍由于夏季洒水降温
酵母抽提物是一种优良的天然调味料,在食品行业中具有广泛的用途。通过对国内外酵母抽提物的发展状况的分析,介绍了其在食品各个相关行业中的应用现状,并综述了酵母抽提物在
从1997年至今,辽宁省奶牛业一直处于快速发展时期。奶牛业发展速度之快、持续时间之长是我省养牛史上前所未有的。经历了前两年的“过热”之后,我们深刻地认识到必须理性地看待
<正>自从用永久性模板生产砂型以来,铸造厂一直使用导销一销套系统为模板和砂型的定位手段.
根据对国内外已有污泥污染研究和治理情况的调研,分析了污泥的农用、热处置、建筑材料利用、填埋、投海等主要处置方式,并指出最佳的污泥处置与利用方案,最后我国未来的污泥处置