论文部分内容阅读
查询词扩展技术作为一种提高信息检索精度的技术,被广泛应用到了搜索引擎中,并成为一个研究热点。本体是共享概念模型的明确地形式化规范说明,其中包含概念模型、明确、形式化、共享四层含义。由于本体可以被用来描述某个领域或者范围里的概念以及概念与概念之间的关系,使得这些信息在共享时具有大家共同认可的、明确的、唯一的定义,所以在信息检索中可以帮助人们在统一规范的信息系统中高效地检索到有用的信息。为了更好地实现查询词扩展,本文结合了本体中信息的统一规范性以及层次关系明确等优点,提出了基于领域本体的查询词扩展方法。该方法在一定程度上克服了传统查询词扩展的语义性差、主题性差等缺点。本文的主要研究内容归纳如下:1.提出了一种基于领域本体的领域相关词抽取方法。本文基于Google网页目录建立了领域本体。把待抽取领域相关词的网页切词、分词,由这些词组成一个词集合,并且根据这些领域本体,从词集合中抽取符合给定阈值的领域相关词。这些领域相关词可以代表某一个或者某几个领域。将这些领域相关词填充到已建立的领域本体中,形成新的领域本体。实验表明使用本文方法抽取的领域相关词在表达文档上优于使用传统方法提取的关键词。2.提出了基于形式概念分析的查询词扩展源的产生方法。使用大文本集作为形式背景建立概念格。在概念格中为用户查询词计算上近似概念以及下近似概念,并根据用户查询词及其上近似概念的属性和下近似概念的属性确定查询词扩展源。3.提出了一种基于领域本体的查询词扩展方法。对查询词扩展源中的词与领域本体中的概念进行匹配计算,确定领域本体中的匹配概念和匹配属性,进而以匹配概念和匹配属性为核心建立子领域本体。实现用户查询词的领域泛化和细化,最终完成用户查询词的扩展。实验通过把本文方法的查询词扩展结果与其它搜索引擎的查询词扩展结果对比,表明了本文提出的方法是具有可行性的。