基于向量空间模型的文本分类系统研究与实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:wangyuanshan3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet已被公认为是20世纪末人类科技史的里程碑,它促使人类社会步入了以网络为中心的信息时代。随着WEB信息量爆炸性增长,人们很难从大量的信息中迅速有效地提取出所需信息,出现所谓的“信息迷向”的现象。为了准确地定位所需的信息,文本分类的研究显得越来越重要了。向量空间模型是进行大规模文本处理常用的表示模型,本文对基于向量空间模型的文本分类的关键技术进行了研究和探讨,包括:文本的表示,向量空间模型,特征类型的确定,特征的抽取与选择和文本分类算法等问题。传统的向量空间模型不能区别不同位置的文本特征项表达文本内容的不同能力。针对该问题,本文运用位置修正因子调整特征项权重,提高了向量空间模型的性能。本文结合已有的文本信息描述和特征抽取方法,综合考虑了频度、分散度和集中度等三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。作为对比的基准,本文编程实现了传统的基于类中心分类法的文本分类系统,通过分析该方法存在的问题,提出并实现了二级分类模式的文本分类系统。实验结果表明,二级分类模式的分类系统具有较高的精确度、召回率和F1测量值。本文最后指出,概念空间能够深入描述文本之间的内在联系,采用概念空间代替词频空间来表示文本,不仅能够大大降低特征维数,提高文本分类效率,还能有效滤除噪声,提高文本分类的正确率。
其他文献
随着Internet技术的快速普及和迅猛发展,网上信息爆炸式增长,如何从中找到真正有用的信息成为人们关注的焦点。作为深层数据挖掘技术的先驱,信息抽取技术可以通过对文本的浅
Internet中,数据的传送采用的是尽力而为的单播方式(best-effort),这种方式大大简化了IP层协议的复杂度,从根本上促进了Internet的成功发展。但是一对一的单播方式并不能满足所
随着计算机网络技术的迅速发展和广泛应用,分布式计算技术已经成为构建企业服务应用框架和软件构件的核心技术,而且在开发大型分布式应用系统中也表现出了强大的生命力,因此如何
形态图是一种以观察者为中心的表达方法,它列举了一个物体所有可能的“定性”形象,即用最少的特征视图(二维线图)完整的表达一个三维物体,使三维物体识别转化为2D 与2D的匹配。
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,各个企业和部门通过自己的数据库管理系统,经过长年努力,已经积累了越来越多的数据。由于数据量庞大且分布于不同的地理
企业信息化建设是一项不断发展、完善的过程。传统的办公自动化系统中,存在数据信息流转速度较慢,安全性不够,对数据信息的处理、统计和分析比较烦琐,在沟通、协作和控制等方
汽轮机预测维修系统是济南大学计算机应用研究所与山东鲁能控制工程有限公司联合研发的,该系统不仅多方位、全面地显示汽轮机运行状态;而且还对汽轮机建立了完整的运行数据档案
随着图书发行业务的垄断格局逐步被打破,市场激烈的竞争逼使图书发行集团选择技术含量更高的数据挖掘手段,提高企业的分析能力,提高企业的市场竞争力。 本文以某大型图书集团
随着计算机信息技术的发展,其对包括建筑业在内的各个行业的影响越来越大。将IT全面地应用于建设工程项目全过程,其结果将给建筑业带来革命性的工具和革命性的变化。 在本文
随着计算机网络技术的发展,信息安全问题日益突出,其核心技术基础之一的数字签名技术,被广泛地应用于军事、通信和电子商务等领域,它在身份认证、数据完整性和抗否认等方面具有其