论文部分内容阅读
语义搜索(SemanticSearch)是一种将语义Web技术与搜索系统相结合以提高搜索效果的技术。学术语义搜索系统是以特定领域的实体作为搜索对象的语义搜索系统,使用具有明确含义的术语描述特定领域。术语发现是学术语义搜索系统的关键技术之一,主要利用术语和论文之间的关系作为度量依据。但是本文中的学术语义搜索系统不提供论文正文,仅提供由论文标题和摘要构成的短文本语料库,限制了术语特征的度量。因此,本文提出一种新的术语发现方法,解决短文本语料库中的术语发现问题。
在学术语义搜索系统中,与术语相关的实体包括研究人员、论文和特定领域的概念体系。本文首先利用术语和相关实体之间的关系,提出了术语的亲和性、时间特性和领域特性三种新特征。然后利用贝叶斯网(BayesianNetwork)描述特征之间的关系,构造简单的术语发现贝叶斯网(simpletermrecognitionbayesiannetwork,STRBN)模型。最后基于STRBN模型组合多个特征作为术语发现的依据。
本文设计并实现了学术语义搜索系统中的术语发现模块,提出了基于STRBN模型的术语发现方法。术语发现模块使用来自电信和计算机领域的7,750,000个论文标题和4,500,000篇论文摘要构成的短文本语料库进行实验,基于STRBN模型的术语发现方法在精度上超过基线方法10%。