英文文本自动分类系统研究与算法改进

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:xiao_ai1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,特别是互联网的不断发展,网络中每天都会产生大量的信息,面对这些海量信息,如何选取符合自己实际需要,符合自己能力水平,符合自己阅读习惯的信息,是网络时代人们面临的一个问题。在该背景下,文本自动分类技术应运而生,在数据挖掘、信息检索及机器学习等领域,经过长时间的运用和改进,实用性大大增强。在文本自动分类技术中,人们面临的一个首要问题是如何减少特征向量空间的高维性,合理表征特征向量的稀疏性。因此,本文从特征值提取、特征权重计算、文本自动分类算法等角度,分别提出了相应的改进方法,具体做了以下几个工作:1.针对传统的特征值提取方法中只考虑词语之间的词汇关系,而忽略词语之间的语义关系的缺点,本文提出了基于多重启发式规则的特征值提取方法。实验表明,该方法可以有效降低特征向量空间维数,提高分类准确性。2.针对传统的特征权重计算方法TF-IDF存在未考虑类间、类内及不完全分类的情况,本文结合TF-IDF与类间、类内和不完全分类等情况改进了特征权重计算方法。实验表明,该方法可以有效地提高分类的F1值。3.针对传统KNN邻近算法在实际使用过程中存在的计算量繁杂的不足,本文基于代表样本概念,对传统KNN邻近算法进行了修改。实验表明,该方法可以有效地降低计算量和提高文本自动分类的准确性。
其他文献
基于大数据分析技术,构造新型功能材料信息综合数据平台,提升新材料研发生产设计过程中建模分析、数据筛选和计算效率,是目前是计算机及材料科学研究专家正在研究的热点。同
随着计算机、电子及信息技术的飞速发展,人们之间的信息交流变得越来越方便。海量的多媒体信息通过移动终端自由的传输和存储,由此带来的视觉信息爆炸问题日益严重。海量、非结
在普适计算的环境上,人与情境感知设备的交互应该简单而自然的。然而,在计算机可以融入到我们周围环境、进入我们的日常生活之前,仍然有许多问题需要解决。如果用户不能理解情境
近年来,语义分析已经引起了自然语言处理领域越来越多的关注。随着SemEval2007任务Task19的提出,框架语义抽取任务受到了越来越多研究学者的关注。框架排歧任务是框架语义结
互联网技术的飞跃式发展,促使WWW网络拥有的Web站点和信息资源剧增,面对如此庞大的信息,用户检索的资源虽然变得愈加丰富,但是,搜索引擎检索出的结果有时也难以让用户满意。
伴随着数据库技术的广泛应用,大量的数据存储到了数据库中。通过关键词查询方式访问数据库,成为了信息检索、数据库领域学者关注的研究热点,有着广泛的应用价值和研究价值。数据
随着互联网技术的不断发展,尤其是网络购物的盛行,网络上出现了大量的产品评论文本。通过这些评论文本可以获得用户对产品的情感倾向,即对产品的一种赞扬或贬斥的态度。商家
语义网旨在使互联网中的数据信息具有机器可以识别和处理的语义,从而可以为人类提供更智能的服务和更便捷的渠道。本体是特定领域中概念及概念间关系的明确表述,是表达和处理
随着医疗业务分工的细化和医疗流程的复杂化,各医疗部门业务流程之间存在复杂的协同模式,传统的业务流程建模和分析方法无法描述和分析复杂的跨部门医疗业务流程。为解决上述问
近年来,在不确定数据库上进行信息查询已经成为了一个热点问题,其中如何结合关键字查询以及查询结果排序成为了重要的研究内容。不确定数据在运用的过程中常常会涉及到信息检索