基于随机森林的文本分类模型研究

来源 :农业图书情报学刊 | 被引量 : 0次 | 上传用户:l1301wz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为处理大量文本数据的关键技术,可以在较大程度上解决"信息爆炸"所带来的问题。Breiman提出的随机森林算法具有良好的泛化性和鲁棒性、对噪声不敏感、能处理连续属性的特点,很适合用来建立文本分类模型。笔者将随机森林算法尝试性引入文本分类领域,构建基于随机森林的文本分类模型,并在标准文本测试集Reuters-21578进行测试和比较,结果表明:(1)该模型可以较好地应用于文本分类;(2)与基于CART、REPTree和J48的文本分类模型的结果相比较,基于随机森林的文本分类模型的效果最好,F1-Measure达到了0.777;(3)基于随机森林的文本分类模型操作方便、直观有效、评价结果可靠,为文本分类研究提供了新思路。
其他文献
体育新课程改革实施以来,在教学理念和教学方法手段等方面都发生了很大的变革。作为一名初中体育老师,只有适应新课改发展要求不断改进教学,才能更好地上好体育课。为此通过
<正>考察一部版画作品,我们曾提出需关注其性质、风格、功能诸要素。版画史家小林宏光则有新的提法。他在关于万历时代画谱出版的论文中,开宗明义地提出其研究将指向版画的"s
<正>房产登记实践中,继承公证文书是一种比较常见的权利来源证明文件,如果由于各种原因被公证机构依法撤销,那么对已经完成的房屋登记会产生何种影响?笔者将结合一则案例谈谈
目的研究玉米须、马齿苋提取物及二者配伍的抗疲劳作用及其机制。方法将小鼠随机分成正常对照组、玉米须提取物组、马齿苋提取物组、玉米须马齿苋提取物(1:2)配伍组,以生药为
<正>保留乳房手术已成为早期乳腺癌的标准治疗方法。保留乳房手术加放射治疗可获得与乳房全切同样的局部复发率及生存率[1-2]。但是,若肿瘤扩大切除组织超过乳腺体积的20%[3]
目前,国内大部分钢丝生产采用的淬火介质为铅液,其原因是铅液具有良好的高温冷却能力,较大的比热容,并且无物态变化,可以保证钢丝在接近等温状态下发生索氏体转变。但铅浴淬
<正>灾难报道具有突发性强、随机性强、变化大的特点。除了报道事实之外,还承担着抚慰人心、集聚人心、鼓舞人心的社会功能。2015年4月25日,尼泊尔发生8.1级地震;震后第4天,4
坏死性凋亡是不依赖于caspase激活的一种细胞程序性死亡方式,其激活主要依赖于坏死性小体的形成。坏死性凋亡的调控受到多种因素响,RIPK1既可启动坏死性凋亡,也可抑制坏死性
目的探讨哺乳期乳腺炎临床分型及个体化治疗效果和策略。方法回顾性分析了2006年7月至2011年8月本院收治的1650例哺乳期乳腺炎患者的临床资料,将其分为传统治疗组736例及个体
随着经济和社会的发展,企业社会责任越来越受到人们的重视,文章以佛教文化作为理论支撑,以我国企业发展过程中的实际情况为背景,将佛教文化与企业社会责任结合起来进行研究,