基于概念的文本自动分类研究

被引量 : 0次 | 上传用户:sz_ydz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅猛发展,大量的信息朝着人们扑面而来,如何管理好所得到的信息的问题变得越来越突出,对文本进行分类管理是人们经常采用的一种文件管理方法。 本文提出了一个基于概念的自然语言文本自动分类模型,该模型以《知网》为主要的概念知识源,以词所表示的概念为分类基础,把概念继续分解至义原,并在可分义原组成的向量空间进行文本分类。该模型概述如下:文本分类系统分为训练模块和分类模块,义原分为可分义原和不可分义原,文本在经过预处理后,按一定规则提取出关键词,对有岐义的关键词,根据其词性和上下文对对其进行概念排岐,根据关键词所表示的概念在《知网》中的定义,把关键词分解成义原,并将不可分义原剔除,从而把文本表示成可分义原向量空间中的一个向量。在训练集中的文本均表示成向量空间的文本之后,训练集中相似的向量在向量空间中会形成文本聚类。对于将要进行分类的文本,亦按上述的方法将其表示为一向量,并在训练集中找出k个与其距离最近的邻居的类别作为该文本的类别。实验表明,该模型相对于基于关键词的文本分类方法有更好的召回率和精确率,进行分类时所需的空间较少,计算时间也相对较短。 本文在三个方面提出了新的思想:第一,首先提出把义原分类为可分义原和不可分义原,并提出分类的原则和方法。这种分类方式可以实现在进行文本分类时,获取概念中最重要的领域特性。第二,虽然现有文献提出用概念来表示文本,但这种概念的表示方式都基于同义词的,把概念分解到义原更能反映出概念的本质和概念之间的相关性,采用义原来表示文本则更反映出文本所要表达的中心意思。第三,首先把概念排岐引入到文本分类中,并提出一种新的概念排岐算法。
其他文献
一、写作背景 证券市场诞生十年来,为国企扭亏脱困、筹集资金改善资本结构、转换经营机制、建立现代企业制度发挥了重要的作用。一大批国有企业借助资本市场得到迅猛发展,壮
离岸金融是国际金融发展的最新趋势,它的实质就是所在国或所在地区政府有意识地放松甚至取消税收管辖、金融管制等在内的管辖权,这一特点和避税地相结合就产生了离岸中心这一避
本文研究了我国建设工程招标投标体制产生、发展及其运行机制和特征,介绍了国际工程招标投标的通行做法及规则。通过对国内外建设工程招标投标的发展及现状以及对国际建设工程
中国古琴音乐有绵延数千年的悠久历史,是举世公认的中国古代音乐文化的大宝藏,也是中国传统音乐文化的象征,尤其是文人音乐的象征。在其漫长的发展过程中,随着琴派的出现,它的演奏
当今世界期货业发展迅猛,金融创新层出不穷,为我国期货业的发展提供许多可供借鉴的经验。随着我国加入WTO,我国期货业在经过近几年的治理整顿后,终于迎来了行业发展的春天。
目的:探讨护理质量持续改进模式对精神科病房不良事件管理效果的影响。方法:将717例精神科住院患者按照不同科室分为对照组356例和观察组361例,对照组接受传统住院护理干预,
本文共分五大部分。第一部分从时代发展的要求,人们对体育认识的提高,社会发展需要,体育自身发展需要四方面指出:当前我国的经济、文化、社会等方面正在发生着巨大的变化,这些变化
高等教育的快速发展,带来了社会化学生公寓中学生教育管理的一系列新的理论与实践问题。本文根据学生公寓建设形式发生的重大变化,提出社会化学生公寓中学生教育管理工作必须建
着眼履行使命任务深化军事斗争准备,按照打赢信息化战争的要求加强实战化训练,是破解军事训练现实难题的重要推动力,是实现军事训练创新发展的重要着力点,也是大力推进军事训练转
报纸
本文力图综合后期维特根斯坦提倡的使用论,奥斯汀、塞尔等人发展的言语行为理论,以及格莱斯所创立的会话含义说等成果,透过自然语言的指谓性和交际性去研究自然语言中的推理。