基于领域本体的用户查询词扩展方法的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:jiayueye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
查询词扩展技术作为一种提高信息检索精度的技术,被广泛应用到了搜索引擎中,并成为一个研究热点。本体是共享概念模型的明确地形式化规范说明,其中包含概念模型、明确、形式化、共享四层含义。由于本体可以被用来描述某个领域或者范围里的概念以及概念与概念之间的关系,使得这些信息在共享时具有大家共同认可的、明确的、唯一的定义,所以在信息检索中可以帮助人们在统一规范的信息系统中高效地检索到有用的信息。为了更好地实现查询词扩展,本文结合了本体中信息的统一规范性以及层次关系明确等优点,提出了基于领域本体的查询词扩展方法。该方法在一定程度上克服了传统查询词扩展的语义性差、主题性差等缺点。本文的主要研究内容归纳如下:1.提出了一种基于领域本体的领域相关词抽取方法。本文基于Google网页目录建立了领域本体。把待抽取领域相关词的网页切词、分词,由这些词组成一个词集合,并且根据这些领域本体,从词集合中抽取符合给定阈值的领域相关词。这些领域相关词可以代表某一个或者某几个领域。将这些领域相关词填充到已建立的领域本体中,形成新的领域本体。实验表明使用本文方法抽取的领域相关词在表达文档上优于使用传统方法提取的关键词。2.提出了基于形式概念分析的查询词扩展源的产生方法。使用大文本集作为形式背景建立概念格。在概念格中为用户查询词计算上近似概念以及下近似概念,并根据用户查询词及其上近似概念的属性和下近似概念的属性确定查询词扩展源。3.提出了一种基于领域本体的查询词扩展方法。对查询词扩展源中的词与领域本体中的概念进行匹配计算,确定领域本体中的匹配概念和匹配属性,进而以匹配概念和匹配属性为核心建立子领域本体。实现用户查询词的领域泛化和细化,最终完成用户查询词的扩展。实验通过把本文方法的查询词扩展结果与其它搜索引擎的查询词扩展结果对比,表明了本文提出的方法是具有可行性的。
其他文献
随着信息时代的到来,通过网络传递信息成为生活中一种必不可少的通信手段,在进行网络通信的过程中,服务器系统提供了有力的支持。当今的网络系统是以IP协议为基础,以服务器系
微阵列技术的快速发展使得同时测量成千上万个基因的表达情况成为可能,并被广泛地用于研究不同癌症和肿瘤的基因表达模式,为从分子水平研究疾病机理以及疾病诊断和预后提供了一
随着计算机的普及以及GIS技术的发展,开发基于GIS的高效准确的土地定级系统已经成为土地定级行业的迫切需求。论文通过分析土地定级工作的现状,提出了土地定级系统的需求,完
伴随着计算机技术、移动通讯技术和互联网技术的迅速发展,计算方式也在不断地变化。当今新兴的移动计算模式使人们在任何时候、任何地点访问自己需要的信息成为可能。然而移
词法分析是自然语言处理技术的基础,其性能将直接影响句法分析及其后续应用系统的性能。词法分析作为基础性处理步骤,其前期的错误会沿处理链条扩散,并最终影响面向终端用户的应
近邻分类算法是机器学习领域应用最为广泛的学习算法之一,但该方法需要较大的计算量和存储量。因此,基于近邻分类的实例选择成为研究焦点之一。此外,现有的基于近邻分类的实
近年来随着计算机技术的飞速发展,分子动力学模拟已经成为生物大分子理论研究的一种十分重要的工具,大量用于研究生物分子及其复合体的结构、动力学和热力学过程。对于大分子
随着网络的发展和计算机的普及,人们可以方便地从网络中下载、复制、修改和传播数字图像,随之而来的是数字图像版权保护的问题。数字图像水印作为一种有效保护数字图像版权的
地表特征物与地形的融合对三维虚拟环境真实感有重要作用。在地形的交互仿真应用中,由于视点接近地面,所以对地物与地形的融合细节和精度要求较高。然而,在实际开发过程中,由
矢量场可视化是科学计算可视化的一个重要研究领域,基于纹理的LIC算法能够全面、细致的描述矢量场的信息,LIC大多被应用在二维领域,或者将LIC图像映射到三维表面。LIC在三维领域