基于语义概念的文本特征描述

来源 :重庆大学 | 被引量 : 0次 | 上传用户:rilton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本的特征描述是自然语言处理、文本分类、聚类、中文信息检索、个性化服务等研究中的一项基础性工作,它研究的是用什么样的方法和模型来表示文章的主题思想。这个描述一方面要能很好的概括文章的主要内容,另一方面要方便计算机进行计算。目前,基于矢量的方法即VSM 得到了广泛的应用,它用若干个特征项和其权重来表示一篇文档。在这个模型中,有两个主要影响描述准确度的因素:一个是特征项的选择,一个是特征项的权重计算方式。广大学者的研究也主要集中在这两个方面,都希望从这两方面能够概括出文本的主题思想,反映其内在的隐含信息。利用统计和信息论的相关知识选择特征项和计算权重在一定程度上解决了VSM 模型描述文本的准确度问题,但一般能涉及和揭示特征项语义信息的比较少,本文主要在以下两方面来解决VSM 如何蕴含特征项的语义信息。(一)考虑词语出现的语言环境对词语的实际语义的重要影响,在现在广泛使用的TF-IDF 权重计算方式上进行了改进,采用了基于词同现频率的权重计算方式来表示文本的权重,该计算方式既含有TF-IDF 公式的相关统计信息,又表现了具体的语言环境对词语语义的影响。(二)在文本的相似度比较上,完全抛弃了纯数学的计算向量相似度的公式(如:计算向量间的欧氏距离、计算向量的夹角余弦、贝叶斯算法、K 最近邻算法等)。改为首先求向量中特征词间的语义相似度,再计算两向量的最大权匹配,最后统计每个匹配对的相似度和,当然在统计和的过程中要考虑每个特征词的权重。这样计算的好处在于:考虑了向量特征词的语义信息,并且在获得文本的向量描述时,不用消歧和规范化处理。最后,我们通过构建了一个文本分类器,把我们在这两个方面的研究与其它方式进行了比较,用实验验证了我们提出的算法在一定程度上提高了分类的准确率和召回率。虽然我们的研究主要是针对个性化服务的,但对中文信息检索和自然语言处理同样适用,可以推广到其它涉及到语言处理的领域。
其他文献
随着社会的发展进步,提出智慧城市的设想也在逐步落实到国家城市规划中来,而智慧路灯管理控制系统作为市政建设的重要基础设施,是智慧城市建设的一个重要分支。本文针对于智
随着网络技术在社会各个领域的迅猛发展和互联网上资源的迅速积累,海量数据的共享、异构数据源(结构化、半结构化、非结构化)的统一管理已经成为当务之急。企业也需要将DBMS,
网络安全是关系到国家利益、集体利益和用户切身利益的大事,是只能依靠我国自身力量发展的技术。其中数字签名技术能够确认参与者的身份,防止恶意的伪造、窜改,在网络通信安
模式匹配问题在计算机科学的基本问题之一。随着科技的发展,带有通配符的模式匹配技术在诸多领域都有重要的应用,如在信息检索、计算生物学和序列模式挖掘等领域。带通配符的
复杂网络是指具有复杂拓扑结构特征的一类网络,现实世界中的社交、运输、生物等许多系统都可以被看作是复杂网络。由于它的广泛应用,复杂网络的脆弱性问题已经成为被大量关注
本文针对工商行政管理的具体特点,给出了一个覆盖工商行政管理绝大部分业务,适用于多级工商管理部门的系统解决方案,并就其数据库设计、开发和数据同步进行了详细的阐述。项
本文在研究建模与元建模理论的基础上,对现有建模方法和元建模现状进行了对比和分析,提出一套比较实用的基于MOF标准的元建模方法。在此基础上,设计了一个基于MOF标准的元建模环
近年来多目标进化算法引起了许多研究者的广泛关注,并且先后出现了很多多目标进化算法。研究者认为一个真正有效的进化算法在于它能求解较难和较复杂的问题,而不只适用于求解
随着数据库、数据仓库以及Internet 技术的应用发展,使得数据挖掘(Data Mining)和知识发现(Knowledge Discovery)引起了大量学者与专家的关注,越来越显示出其强大的生命力。
可再生能源开发战略是国家十二五规划的重要组成部分。小水电是一种资源分布广、开发潜力大、环境影响小、可扩展利用的可再生能源,在国家能源发展战略上有着重大意义。在现阶段,考虑到水电机组的复杂性以及小水电站位置的苛刻性,通常采用专人值守的形式进行设备维护与异常监测。其过程不仅效率低下,而且过分依赖于工作人员的经验知识,往往具有较高的误判率,因此有必要研究机器学习理论与统计学理论并实现高性能识别算法,用于