文本分类的特征提取方法比较与改进

来源 :计算机仿真 | 被引量 : 0次 | 上传用户:zxing515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的χ2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明χ2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。
其他文献
<正>子宫腺肌病(Adenomyosis)是指具有生长功能的子宫内膜腺体和间质侵入子宫肌层,可在子宫肌层内弥漫性生长,亦可呈局限性增生,是常见的妇科良性疾病,且有年轻化趋势,总的发
【目的】研究不同比例的黄芪、当归药对及当归补血汤含药血清对小鼠巨噬细胞(RAW264.7)吞噬氧化低密度脂蛋白(OX-LDL)的作用。【方法】(1)实验设6组:正常对照组,空白血清组,1
基于中小企业财务管理现状及对策分析,结合我国中小企业财务管理存在问题,得出完善中小企业内部控制制度、完善会计信息保护机制、加强财务管理与大数据的结合和加强企业财务管
兴趣是小学生积极、主动地参与课堂学习活动全过程的一种心理倾向,是学生学习活动中最现实最活跃的心理因素,是一种强大的内趋力,是学习知识、培养能力的前提。一旦有了浓厚的学
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:研究分析康妇炎胶囊对慢性盆腔炎性疾病的治疗效果。方法:选择2018年1月-12月在笔者所在实习医院治疗的盆腔炎性疾病患者80例作为研究对象,采用掷币随机法将其分为2组,
摘要:高校建档立卡生精准扶贫资助工作是脱贫攻坚至关重要的一环,受到广泛的社会关注。针对高校建档立卡贫困学生的资助大多体现于经济上的资助模式,结合目前建档立卡生的心理背景和受助思想,提出可持续发展的成长发展性资助概念。发展性资助模式的探索包括:依托大数据制定个性化帮扶方案、搭建平台激励学习科学文化知识、鼓励参与社会活动强化身心健康、推行感恩教育。  关键词:建档立卡;高校;发展性资助;大学生  中图
8月份.徐工基础公司发车总量实现旋挖钻机34台、掘进机3台、水平定向钻机30台,旋挖钻机单月发车总量创下了基础公司新的纪录,打破了单月发车25台(不计出口)的纪录,再创历史新高。
中国入世议定书第15条于2016年12月11日到期后.欧盟针对包括中国在内的非市场经济国家的反倾销调查已丧失了WTO的合规性。为此,欧盟理事会于2017年12月通过了反倾销调查新方
生物科学是研究生物的结构、功能、发生、发展规律的科学,在农业、工业等多个领域均发挥着巨大的作用。在生物科学教育中渗透素质教育,目的在于帮助学生更好的了解生物科学的