论文部分内容阅读
科技的快速发展推动社会进入信息爆炸和快速消费时代,人们迫切希望从海量信息中获取感兴趣的内容。对科研人员来说,快速定位相关文献和科研信息尤为重要。文本相似度是解决该问题的关键技术,国内外对文本相似度计算方法的研究比较成熟,但大多数方法仅针对词语粒度展开计算而忽略了词语之间存在的语义关系。而科学数据中的领域实体语义关系具备结构化、规范性、开放性好等一系列优点,同时良好地揭示文献研究内容,能够弥补文本相似度计算中语义不足的问题。本文通过对文献与领域实体语义关系数据存在的关联关系进行分析,提出基于领域实体语义关系的文本相似度计算方法,以增强计算过程中文本语义性,提高相似度计算效果。 本文首先调研了文本相似度的国内外研究现状,对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向,形成了较为全面的分类描述体系。接着对领域实体语义关系数据展开分析,包括其产生方式、数据量、数据形式、数据结构等,并对多个领域实体语义关系数据库进行比较,确定将BioGRID数据库作为实验源。 在理论研究的基础上,对基于领域实体语义关系的文本相似度计算方法展开实验设计。基本原理是利用数据与文献的物理关联,将文献相似度计算转化为多个领域实体语义关系组的计算,单个领域实体语义关系组的相似度转化为关系组各组成部分的共现程度。为了保证文本语义完整性,算法综合了经典相似度计算方法。故算法包括数据提取与预处理、数据格式转化、领域实体语义关系组相似度计算、经典文本相似度计算、文献相似度综合计算五个模块,文章对每个功能模块展开详细设计并依次编码实现。 本文以生物医药领域的蛋白质相互作用关系数据为例进行实证。为了说明算法的有效性,取VSM算法作参照对象,从单篇文献相似度和全样本文献相似度两个维度对比实验结果,实验证明本文算法的计算效果优于VSM算法。本文最后设计并实现了文献推送系统,完成了文献信息查询功能和相似文献推送功能。 本研究发现,将领域实体语义关系数据加入文本相似度计算有助于增强文本语义性,有效提高文本相似度计算结果,同时本文作为文本相似度计算方法的探索性研究,为文献检索、文献精准推送等应用场景的实现提供了新方法。