基于领域实体语义关系的文本相似度计算方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wareware1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技的快速发展推动社会进入信息爆炸和快速消费时代,人们迫切希望从海量信息中获取感兴趣的内容。对科研人员来说,快速定位相关文献和科研信息尤为重要。文本相似度是解决该问题的关键技术,国内外对文本相似度计算方法的研究比较成熟,但大多数方法仅针对词语粒度展开计算而忽略了词语之间存在的语义关系。而科学数据中的领域实体语义关系具备结构化、规范性、开放性好等一系列优点,同时良好地揭示文献研究内容,能够弥补文本相似度计算中语义不足的问题。本文通过对文献与领域实体语义关系数据存在的关联关系进行分析,提出基于领域实体语义关系的文本相似度计算方法,以增强计算过程中文本语义性,提高相似度计算效果。  本文首先调研了文本相似度的国内外研究现状,对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向,形成了较为全面的分类描述体系。接着对领域实体语义关系数据展开分析,包括其产生方式、数据量、数据形式、数据结构等,并对多个领域实体语义关系数据库进行比较,确定将BioGRID数据库作为实验源。  在理论研究的基础上,对基于领域实体语义关系的文本相似度计算方法展开实验设计。基本原理是利用数据与文献的物理关联,将文献相似度计算转化为多个领域实体语义关系组的计算,单个领域实体语义关系组的相似度转化为关系组各组成部分的共现程度。为了保证文本语义完整性,算法综合了经典相似度计算方法。故算法包括数据提取与预处理、数据格式转化、领域实体语义关系组相似度计算、经典文本相似度计算、文献相似度综合计算五个模块,文章对每个功能模块展开详细设计并依次编码实现。  本文以生物医药领域的蛋白质相互作用关系数据为例进行实证。为了说明算法的有效性,取VSM算法作参照对象,从单篇文献相似度和全样本文献相似度两个维度对比实验结果,实验证明本文算法的计算效果优于VSM算法。本文最后设计并实现了文献推送系统,完成了文献信息查询功能和相似文献推送功能。  本研究发现,将领域实体语义关系数据加入文本相似度计算有助于增强文本语义性,有效提高文本相似度计算结果,同时本文作为文本相似度计算方法的探索性研究,为文献检索、文献精准推送等应用场景的实现提供了新方法。
其他文献
21世纪全球已进入信息化、网络化和数字化的知识经济时代。在知识经济背景下提出了一种全新的观念——知识服务,按照一般的理解,知识源于信息,知识是信息升华的结果。所以说,
高校图书馆核心竞争力可以分解为文献信息资源、人力资源、技术与设备以及组织管理四个构成因素,而高校图书馆业务外包的目的和精髓就是将非核心业务外包,使图书馆的工作重心
期刊
随着互联网的快速发展,如何从纷繁复杂的网络上快速准确的查找到用户所需要的信息成为学术界的研究热点,这个问题实质上是信息检索一直试图解决的问题。传统的信息检索技术在实
竞争情报传播是竞争情报业务规划流程中的最后一步,也是直接面对情报用户、将情报产品送达至用户手中的一步;传播效果的好坏不仅关系到情报内容的准确送达,也关系到用户对于情
21世纪是人类社会完成由工业文明向信息文明飞跃的伟大时代。在社会信息化进程日益深化、知识经济日趋形成的今天,档案信息化建设正以积极的姿态向前推进。在此背景下,档案事
近年来,我国的信息服务业获得了快速发展。而现代信息服务业以先进的数字技术和网络技术为支撑,与最具活力的产业形态相结合,不仅是信息服务产业中最为活跃的因子,也是未来信息产
学位
不论从竞争情报的起源,理论基础还是其工作内容来看,竞争情报一直是围绕着监测竞争环境从而为企业提供竞争信息和策略来进行的。特别的,竞争情报的一个重要方面就是观察竞争
随着资本主义的发展和资产阶级队伍的壮大,特别是清末新式教育和留学生教育的兴起,在二十世纪初的中国出现了一批不同于旧式封建文人的新的知识分子群落,即具有民族主义和民
文本是存储和交换信息的最自然的方式。相关研究表明,现实中80%的信息包含在文本文档中。随着计算机技术的不断进步,数字化文本数据不断增长。如何对海量的数字文本资源进行有效