论文部分内容阅读
搜索引擎系统作为互联网信息检索工具,其使用率变得越来越高。然而在网络用户想要精确查找所需的资料的过程中,由于传统的搜索引擎系统大都是基于关键字匹配的检索技术,使得用户在检索时经常得到大量与查询无关的结果。为了提高用户对检索系统的满意度,可以通过扩展搜索系统对语义查询和动态查询的支持来实现。词语语义相关度反映的是词语之间相互关联的程度。其相关的研究已经广泛地应用于自然语言处理领域。词语相关度在信息检索中的查询扩展,歧义的消除,提高信息检索的精度和召回率等都有着重要的实用价值。将语义相关度计算引入信息检索技术的研究中,正是为了提高检索系统对用户查询信息的语义处理能力,从而提高检索效率,使系统更具智能性。本文首先从搜索引擎的现状谈起,分析了现有搜索引擎系统的特点和不足,提出了改进搜索性能的手段,从而引入智能搜索技术,得出查询扩展在搜索引擎系统中设计和实现的必要性。其次介绍了关于语义相关度计算的方法以及其优缺点。目前的相关度计算都是建立在词语相似度计算的基础上的。语义相似度计算的方法大致可以分为两种:一种基于世界知识的方法;一种是基于大规模语料库的方法。最后提出了一种基于概念格的语义相关度计算方法,阐述了该方法的设计流程及其在FCA搜索引擎系统中的实现。该方法利用了概念格对信息聚类的特性,突破了传统方法相关度计算方法的设计思路,拓宽了概念格的应用范围。本文主要贡献如下:1.研究了汉语词语语义相关度及其算法,分析了语义相关度计算的实现及应用。2.提出了一种基于概念格的语义相关度计算方法,该方法利用了概念格对知识进行聚类的结构特点,并通过实验证明,该方法计算相关度是有效的。3.将该方法应用到FCA搜索引擎系统中,为该系统提供了查询扩展功能支持。