论文部分内容阅读
在现代社会,网络是信息的重要来源,而搜索引擎是网络资源的主要入口。能否快速准确地获取所需信息很大程度上取决于搜索引擎性能的优劣。目前的搜索引擎大多基于布尔模型、向量空间模型和语言模型,将需求和网页视为离散的词汇集合,只考虑词汇的共现。这些模型割裂了词汇间的联系,忽略了文本蕴涵的语义信息,带来大量噪声,导致精确度偏低。针对上述问题,学者们提出多种基于语义的检索模型。 基于内涵语义的概念图模型试图构建文本的概念图,还原文本所表达的概念并重建概念间的关联。由于概念图能够较好地表示文本语义信息,可以将概念图作为文本的语义表示方法,应用到语义检索。 本文的工作包括四个部分。第一部分提出基于概念图的网页检索结果分析框架,并在该框架下对若干实例进行人工分析。 第二部分在需求概念图导引下对网页摘要进行标引生成精简摘要概念图,这种方法避开网页标引,关注相对简单的摘要标引,自动化程度高且不依赖完全句法分析。 第三部分分析网页检索的错误结果归纳错误类型,提出两种基于需求概念图和精简摘要概念图的方法对网页检索的错误结果进行过滤。实验表明同时使用两种方法能够有效提高检索精度。 第四部分试图改进过滤方法使它们能够应用于网页检索结果排序,是对需求概念图导引下的网页检索结果排序的有益尝试。 本文探索在需求概念图导引下对网页检索的结果进行分析,希望能够为基于概念图的语义检索模型的研究提供一些思路。