论文部分内容阅读
信息检索的研究已有多年历史,自World Wide Web (WWW)产生以来,如何在海量的信息资源中检索到有用的信息更成为一个非常重要的课题,同时这方面的研究也有了一定成果。Yager提出的有序加权平均算子(Ordered Weighted Averaging Operator)已经广泛应用于决策分析、专家系统、人工神经网、模糊系统等方面。它提供了广泛的包括极大、极小和算术平均的参数化集成算子,并可以应用于各种信息集成问题中。如何将OWA应用到Web信息检索是一个非常值得考虑的问题。
Web 信息检索系统作为用户层和 Web 信息层之间的中间层,可以进一步地划分为3个层次,包括:搜索引擎与目录、元搜索引擎、信息检索Agent 。本文就是按照搜索引擎、元搜索引擎、Agent三个层次提出了基于OWA算子的Web信息检索模型,旨在寻找提高网络信息检索效果的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
全文主要包括七个部分:
第一章对信息检索及 Web 信息检索的研究现状进行了综述,为下文的进一步研究奠定了基础。
第二章详细阐述了Web信息检索层次分类,介绍了几种传统信息检索模型,包括布尔模型、向量模型、概率模型、概念模型,并且阐述了Web信息检索中的信息集成问题,综述了各种信息集结算子。
第三章提出了用户查询含数值权重的扩展的布尔信息检索模型。此模型中,文档采用了一种改进的关键词频率一逆频率(TF、-IDF)方案,查询表达式用带有数字权重的检索关键词表示。然后采用自下而上的匹配策略,用调整的几何平均算子和有序加权平均算子进行信息集结,最终得到了每个文档对查询表达式的检索值。
第四章建立了基于OWA的用户查询含语言值权重的扩展的布尔信息检索模型,这个模型与上个模型的不同在于在查询语句中用语言值权重代替数值权重。匹配策略也是自下而上的,最终得到了每个文档对查询表达式的检索值。
第五章建立了基于OWA进行结果融合的元搜索引擎模型。本章中用OWA算子进行结果融合:首先计算每篇文档在每个成员搜索引擎各自的检索结果中的位置值(Position Value),然后针对位置值的大小进行结果的集结,即融合。
第六章建立了一个信息检索Agent模型,该模型中阐明了从用户Agent 到信息源的五个层次,并给出了工作流程,其中用到OWA算子。
第七章是结论和展望。另外,本文对每个模型都有简单的算例,以便更好的说明算法。