论文部分内容阅读
随着万维网的发展,越来越多的信息被数字化,信息检索成为最广泛使用的计算机应用技术之一。每一秒,都有成千上万的人在搜索万维网上的信息,期望找到满意的结果。评价是信息检索的基石,因为信息检索技术的进步有赖于对新想法的实验和检索效果的度量。无法反映用户感受的评价会阻碍甚至误导信息检索技术的发展。
广义的信息检索评价不仅仅是指对评价指标的研究,而是一个体系,它涵盖了查询词集合、待标注文档集合、标注环节和评价环节。在对大规模万维网检索系统的评价实践中,发现评价是否能够反映用户的真实感受,很大程度上依赖于标注的方法、查询词的选取、和评价的侧重点。针对万维网对评价体系提出的新挑战,本文做出了以下贡献:
一、对标注环节的研究:对于意图明确的查询词,研究了基于文档间相对相关性的标注方法。在资源有限的情况下,如何能获取区别力更强、质量更高的标注是做大规模信息检索评价的关键。传统的方法通常是让标注者事先熟悉预定义的相关性级别,然后根据查询词和一篇文档的内容来分配一个合适的级别。这一过程和其他文档没有直接关系,把它称为绝对标注。当搜索引擎需要大规模的标注数据来训练排序模型或是评价算法时,这种传统的标注方法的一些问题就凸现出来。对某些查询词来说,预定义的级别还不足够区分一些有差别的文档。另外,处于级别边缘的文档,标注者有时很难仅凭该文档独立做出判断。相反,以往的工作发现人们比较容易在两篇文档之间做出相对相关性的判断。因此,工作扩展了以往基于文档对的标注方法,形式化了相对相关性标注的问题,并提出了一个基于多篇文档的相对标注方法。该方法能显著的增加标注的区分度和标注者之间的一致性,并且比基于文档对的相对标注方法的效率快一倍。
二、对查询词的研究:打破了以往公共评测数据集对查询意图明确的假设,研究了万维网搜索日志中真实存在的多义查询词及其比例。虽然人们发现提交到搜索引擎的部分查询词有歧义(如,java和apple),但以往的评价集合很少包含这类查询词,也很少有工作根据模糊性对查询词进行分类。本文将首次探讨这些问题。依据查询词的语义模糊性,提出一个查询词的分类法;接着,请标注员利用多种资源对查询词进行人工分类,从结果中观察到多义查询词在某种程度上是可以预测的;于是,提出了两种方法来有监督的学习查询词二义性模型:基于搜索结果的方法和基于搜索日志的方法。实验结果表明,基于搜索结果的方法在随机选取的查询词上能够达到87%的准确率,而基于日志的方法在有日志的查询词上可以达到86%的准确率。利用基于搜索结果的方法,估计实际搜索中大约有16%的查询词是多义词。
三、对评价环节的研究:对于多义查询词,好的检索结果需要兼顾相关性和多样性,本文中研究了多样性的评价问题。对于多义查询词来说,如果无法知道用户的真实意图,一个自然的做法是对检索结果进行多样化。已经有一些工作研究多样化的算法,但是对于如何评价多样性还缺乏系统的研究。本文将探讨两个与评价多样性密切相关的问题:1)一般很难穷举多义查询词的所有可能意图,那么不完整的意图集合会对评价结果有何影响?2)不同意图的流行程度是不同的,那么如何估计每种意图可能被查询的概率?尝试为多义查询词构建了一个测试集,并允许标注者在做相关性标注时增添新意图。另外,提出了两种模型来估计每个意图的概率。通过实验,研究了意图的不完整性和概率估计对评价多样性的影响。
本文围绕着万维网信息检索的评价体系中的实际问题,着重研究了相关性标注方法,查询词的模糊性和检索结果多样性的评价。富于创新性的方法和详实的实验结论对大规模信息检索的评价有着重要的参考价值。本文提出的标注方法已经被应用于商用搜索引擎必应搜索中,针对多义查询词的评价方法也已经被国际知名评测会议NTCIR(NII Test Collection for IR Systems)接受为标准,将被应用于构建公共评测集合。