论文部分内容阅读
近年来,科技论文作为前沿知识的载体呈指数级增长,因此,如何高效的检索到准确的电子科技论文已成为一个不可忽视的研究问题。论文检索一般是借助于搜索引擎进行的,搜索方式可以概括为两种:基于关键词匹配的搜索和基于语义的搜索。传统的基于关键词匹配的搜索,简单方便,却忽视了关键词之间的关系和隐含语义,检索时容易忽略一些相关却不包含关键词的科技论文。基于语义的搜索亦提出了很多年,使用语义搜索,可以提高检索的效率和准确度,但却需要熟知本体、实体、概念以及相应的知识表示等语义知识,复杂困难,所以目前语义搜索的使用大部分还停留在研究阶段。因此,如何将科技论文的关键词搜索无缝且高效的衔接到语义搜索上,方便用户直接使用关键词就可以享受到语义搜索的效果,这就是本文研究的重点。本文将科技论文的搜索过程分为三个部分:搜索关键词,搜索论文文档,关键词到论文文档的映射,并以这三点为突破点,实现操作简单的科技论文的语义搜索。本文提出一种基于关键词的语义搜索方式,此搜索的实现分为三步:(1)为搜索提供准确的搜索关键词;(2)结构化搜索论文文档;(3)实现搜索关键词到论文文档的高效映射。实现的难点有三个:(1)关键词的二义性:关键词具有同义词和多义词,如何获得用户输入的关键词所表达的真正含义是一难点。(2)科技论文的语义模型:不同用户对同一科技论文的关注部分是不同的,如何准确的划分并标注出科技论文的语义模块亦是重点。(3)关键词和科技论文的语义匹配:关键词没有属性且具有歧义性,这会造成大量的检索结果,如何提取关键词的隐含语义,并实现其和科技论文的语义匹配,挑选出最符合用户需求的检索结果也是急需解决的难点。为解决以上三个难点,本文针对其提出的科技论文语义搜索方式,主要分为三个方面:(1)关键词的相关概念推荐:为解决关键词的二义性,本文提出CRBK(Concepts Recommendation Based on Keywords)模型,此模型基于输入的关键词,为用户推荐与关键词相关的概念,不仅帮助用户找出其最想表达的含义,而且提示用户有更多相关方向的概念词可以选择。(2)科技论文语义模型和自动标注:本文提出BPSR(Background,Research problem,Solution,Result)语义模型,将科技文论文的摘要分为以上四个语义模块,并将其自动标注出来,此模型准确提取出论文中用户需要的知识,提高了用户挑选和阅读论文的效率。(3)基于语义标签的关键词和科技论文的匹配:基于Wikidata这一开放知识库的内容及结构,提出将关键词和科技论文映射为语义标签,并基于此进行匹配和论文排序,此匹配方式提取出了关键词的隐含语义,提高了论文的查全率。本文通过以上三点实现了科技论文的语义搜索。实验结果表明,与传统的基于关键词的搜索方法相比,本文提出的科技论文的语义搜索模型,提高了科技论文搜索的查准率和查全率,也证明基于简单的关键词亦可以实现复杂的语义搜索,这对语义搜索的普及与推广具有重大意义。此外,本文分析了目前提出的语义搜索模型的不足之处,并进一步讨论了本语义模型改进的可能性和优化的方式。