科技论文的语义搜索研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zmy_java
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,科技论文作为前沿知识的载体呈指数级增长,因此,如何高效的检索到准确的电子科技论文已成为一个不可忽视的研究问题。论文检索一般是借助于搜索引擎进行的,搜索方式可以概括为两种:基于关键词匹配的搜索和基于语义的搜索。传统的基于关键词匹配的搜索,简单方便,却忽视了关键词之间的关系和隐含语义,检索时容易忽略一些相关却不包含关键词的科技论文。基于语义的搜索亦提出了很多年,使用语义搜索,可以提高检索的效率和准确度,但却需要熟知本体、实体、概念以及相应的知识表示等语义知识,复杂困难,所以目前语义搜索的使用大部分还停留在研究阶段。因此,如何将科技论文的关键词搜索无缝且高效的衔接到语义搜索上,方便用户直接使用关键词就可以享受到语义搜索的效果,这就是本文研究的重点。本文将科技论文的搜索过程分为三个部分:搜索关键词,搜索论文文档,关键词到论文文档的映射,并以这三点为突破点,实现操作简单的科技论文的语义搜索。本文提出一种基于关键词的语义搜索方式,此搜索的实现分为三步:(1)为搜索提供准确的搜索关键词;(2)结构化搜索论文文档;(3)实现搜索关键词到论文文档的高效映射。实现的难点有三个:(1)关键词的二义性:关键词具有同义词和多义词,如何获得用户输入的关键词所表达的真正含义是一难点。(2)科技论文的语义模型:不同用户对同一科技论文的关注部分是不同的,如何准确的划分并标注出科技论文的语义模块亦是重点。(3)关键词和科技论文的语义匹配:关键词没有属性且具有歧义性,这会造成大量的检索结果,如何提取关键词的隐含语义,并实现其和科技论文的语义匹配,挑选出最符合用户需求的检索结果也是急需解决的难点。为解决以上三个难点,本文针对其提出的科技论文语义搜索方式,主要分为三个方面:(1)关键词的相关概念推荐:为解决关键词的二义性,本文提出CRBK(Concepts Recommendation Based on Keywords)模型,此模型基于输入的关键词,为用户推荐与关键词相关的概念,不仅帮助用户找出其最想表达的含义,而且提示用户有更多相关方向的概念词可以选择。(2)科技论文语义模型和自动标注:本文提出BPSR(Background,Research problem,Solution,Result)语义模型,将科技文论文的摘要分为以上四个语义模块,并将其自动标注出来,此模型准确提取出论文中用户需要的知识,提高了用户挑选和阅读论文的效率。(3)基于语义标签的关键词和科技论文的匹配:基于Wikidata这一开放知识库的内容及结构,提出将关键词和科技论文映射为语义标签,并基于此进行匹配和论文排序,此匹配方式提取出了关键词的隐含语义,提高了论文的查全率。本文通过以上三点实现了科技论文的语义搜索。实验结果表明,与传统的基于关键词的搜索方法相比,本文提出的科技论文的语义搜索模型,提高了科技论文搜索的查准率和查全率,也证明基于简单的关键词亦可以实现复杂的语义搜索,这对语义搜索的普及与推广具有重大意义。此外,本文分析了目前提出的语义搜索模型的不足之处,并进一步讨论了本语义模型改进的可能性和优化的方式。
其他文献
通过面板数据回归,从不对称冲击的两个方面可以解释房地产库存的成因:本轮经济下行冲击导致城市就业能力下降,使得从乡村到城市的人口迁移速度下降,进而导致城市房地产市场供
作为我国经济腹地,中部地区拥有丰富的民间手工艺文化资源,在品牌形象建设方面具有强大优势。本文主要针对中部地区民间手工艺品牌形象观念的缺失,以及在品牌形象设计方面的
在任何学科对学生问题意识培养都是不可避免的,学科与学科之间在培养学生问题意识方面有哪些共同之处,高中思想政治课问题意识有何种学科特性,本文着重探讨了高中思想政治课在培
利用2004—2016年我国省际面板数据,建立动态面板模型,考量人口结构变迁对房地产库存的影响。研究结果表明:相对人口社会结构和人口空间结构,人口自然结构对房地产库存的影响
应用系统动力学的原理和建模方法描述了我国房地产库存状况,分析了房地产库存影响因素的因果反馈关系,构建了房地产库存的系统动力学模型,并引入政策调控变量,进行仿真实验。
旋转在基本训练中是一项非常重要的教学内客,本文对这一技术本身的科学性进行了一些分析,提出了一些训练上的重点与难点。
<正>阎连科小说中的农民世界从时间上看是一个开放的世界,它可以存在于历史长河中的任何一段;从空间上看,这是一个封闭的世界,它远离社会,远离时代,是一个特定的、独立的、自
近年来,随着高等教育大众化步伐的加快以及国家扩招政策的实施,高等职业教育及其学生管理出现了许多新情况,也面临着许多新问题,迫切需要高职院校在发展进程中予以正视并加以解决
目的:优选建昌帮特色饮片炆远志的炮制工艺。方法:采用L9(34)正交试验法,以醇出浸物、细叶远志皂苷、远志酮Ⅲ、3,6’-二芥子酰基蔗糖的含量作为评价指标,以加生甘草量、加水
介绍了三维模型检索的主要研究内容 ,综述了三维模型检索中的关键技术———特征提取的研究现状 ,通过对基于统计特征、骨架几何学的特征提取方法的综合比较与分析 ,对各种特