随机森林在文本分类中的应用

被引量 : 0次 | 上传用户:lijie041132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林是结合Bagging算法和随机子空间方法,以决策树作为基分类器的集成分类算法。自面世以来,随机森林被用于解决各种分类问题,包括信息检索中的重要环节:文本分类。本文对传统随机森林算法进行了介绍与分析,并在此基础上提出传统随机森林算法有以下不足之处:第一,无法增强随机森林中分类性能优秀和削弱分类性能欠佳的决策树对分类结果的影响;第二,没有有效的预防和处理分类过程投票环节后产生的多个类别同时获得最高票数导致难以选择最终分类结果的现象(本文把此现象定义为“平局现象”)的方案。针对上述不足之处,本文对传统随机森林算法进行改进。第一,把分类过程中的投票环节从简单多数投票法改为加权投票法,决策树的权重与其out-of-bag准确率正相关。第二:在算法中添加平局现象的预防和解决措施,预防措施为增加决策树权重的精度,解决措施的基本原则是:遇到平局现象时统计在投票过程后都取得最高票数的所有类别的所有投票者(决策树)的分类性能,以分类性能高的决策树选择的类别作为最终的分类结果。为了验证本文提出的改进后的随机森林算法的有效性和可行性,本文利用中科院自动化所“自动化学科创新思想与科学方法研究”课题组创建的英文、中文语料库进行实验。首先利用改进后的随机森林算法与传统随机森林算法在英文、中文语料库中进行文本分类实验,实验结果表明,改进后的随机森林算法在准确率、F1值上比传统随机森林算法有优势。然后利用改进后的随机森林算法与C4.5、朴素贝叶斯、k近邻算法在英文、中文语料库中进行文本分类实验,实验结果表明,改进后的随机森林算法在准确率、F1值上优于C4.5、朴素贝叶斯、k近邻三种算法。上述实验验证了本文改进的随机森林算法是有效、可行的。
其他文献
通过对浙江水路运输市场运行情况分析,总结出了水路运输市场存在着市场监管不到位、市场供需不平衡、市场信息不透明、市场经营不规范等问题。提出了加强组织管理推进市场建
1930年,上海市商会及各同业公会向政府提出,无论是否加入同业公会均应遵守同业行规,工商部对此表示异议,从而引起各地商会及同业公会的不满。双方主要在行规性质及是否赋予行
石油化工企业中物料的输送大多是在管道中进行的,为保证物料能够在管道内顺利的传送,需要对物料输送管道进行伴热,以提高其流动性。常用的伴热方式为外伴热管伴热,即将伴热管
采用响应面试验优化了凝结芽孢杆菌NJ39生长和产芽孢的发酵条件,得到芽孢生成与发酵温度、pH值、接种量和发酵时间的关系方程,求解二次多项回归方程确定了发酵温度34℃、接种
新《公司法》修订后,加强了对股东权益的立法保护。但相比于其他发达国家的立法,我国《公司法》对股东权益的保护仍有较大差距。有限责任公司的人合性决定了公司股东权益尤其
为探索职业教育在我国良性发展的有效路径,通过比较与分析中德两国的职业教育观念、职业教育模式、职业教育教学过程及考核与评价方式,提出了改变我国职业教育"洼地"地位、以
发动机前端附件驱动(Engine Front End Accessory Drive)系统是汽车上一个重要的动力学系统,它是通过传动带将发动机曲轴端输出的动力传递到汽车各个附件上。附件驱动系统性
城市化过程中,交联聚乙烯电缆得到广泛的应用,然而供电负荷的不断增加和新建电缆线路困难的矛盾日益突出。电力电缆的供电能力通过其载流量来反映,而面向城市供电的配电电缆
在当前的高新电子装备制造领域,企业组织结构等级多、各部门业务流转中形成各自为政、信息孤岛等现象;多样式小批量生产模式无法对业务流转的过程进行标准化、制度化,导致产
新时代标定了思想政治工作的时代坐标,也引领着思想政治教育话语体系的创新性发展。思想政治教育话语理念要因时而进,树立人民中心、不懈奋斗及面向世界的开放发展理念;思想