论文部分内容阅读
搜索引擎质量评价是一个非常重要的问题。对于使用者,它可以帮助他们选择合适的搜索引擎,找到满足信息需求的信息;对于搜索引擎的研究和开发人员,它能够帮助他们比较各组件算法的好坏,发现系统瓶颈,从而改进服务质量。
传统的搜索引擎评价方法基于Cranfield范式。Cranfield范式的提出已经有五、六十年的历史,当代的搜索引擎发生了很大的变化,使得Cranfield范式不再完全适用于当代搜索引擎质量的评价。首先,当代搜索引擎处理的查询和文档的规模大大增加,获得一个可靠的信息需求-文档相关性标注集合将越来越困难。其次,当代搜索引擎的功能不只是返回用户一个文档列表,它们一般具有更多的功能特性(如对每个文档产生一个和查询相关的摘要等)。这些功能模块的质量会直接影响用户的使用体验,因此需要有针对这些新的功能模块的新的评价方法。
为了解决以上使用Cranfield范式对搜索引擎质量进行评价中出现的困难,本文研究通过分析搜索用户的点击日志,对搜索引擎的质量进行准确而高效地评价的方法。这种方法不要求大量的信息需求-文档的相关性关系的标注,从而大大减少了搜索引擎质量评价所需的人力代价和时间代价。它自动地分析搜索用户的点击日志,从中提取能够反映搜索引擎质量的特征,然后利用这些特征来评价搜索引擎的好坏。本文提出两种利用用户点击日志评价搜索引擎质量的方法。第一种方法通过归并两个搜索引擎的结果,展示给用户,然后使用规则从用户的点击中推测出哪个搜索引擎更好的结论。第二种方法通过展示(一个或两个)搜索引擎的结果,使用用户点击模型从用户点击中推测出文档,展示信息的特征,然后综合这些特征来评价搜索引擎的质量。
概括起来,本文的贡献如下:
1.本文提出了一种对搜索引擎归并一比较方法进行系统评价的框架,以及一种基于位置信息的归并.比较方法。一种常用的利用用户点击日志进行搜索引擎评价的方法是归并一比较方法。它归并两个搜索引擎的结果,展现给用户,通过发现用户更加倾向于点击归并结果中哪一个搜索引擎的结果,来获得哪个搜索引擎质量较好的结论。但是,并没有一种对这些归并.比较方法进行评价的框架,来比较这些方法的好坏。本文提出一种对归并-比较方法进行系统评价的框架,该框架可以模拟在各种情境下搜索引擎和用户之间的交互,从而可以测试归并-比较方法在各种情境下的相对优劣。通过对各种归并-比较方法的评测结果的分析,发现已有方法具有一个普遍的弱点:它们一般只是对文档的点击次数进行计数,而并没有有效地利用文档在原始排序结果中的位置信息,因此会造成一些误判。而相关/不相关文档在原始文档序列中的位置,对于评价搜索引擎的结果也有非常重要的影响。我们提出基于位置信息的归并.比较方法,从而提高了比较结果的准确性。
2.本文提出了基于用户满意程度和用户浏览时间的点击模型。很多研究发现,搜索用户比较倾向于点击比较靠前的文档。这种现象通常被称为信任偏差,我们分析了这一现象的来源。通过对用户点击日志的分析,我们发现,使用查看假设和级联假设,对用户的浏览行为和文档特征进行建模,就可以解释信任偏差这一现象。进一步的,我们提出用户满意度点击模型。这一模型假设用户的满意程度会决定他是否继续浏览搜索结果,其中用户满意程度可以通过所有己经点击过的文档的相关性进行估计。我们还提出用户浏览时间点击模型。这一模型假设文档原文的相关性程度会影响用户浏览文档的时间,所以可以通过用户浏览文档的时间来推测文档相关程度。两种模型在预测用户点击的能力上,都取得了比现有的点击模型更好的效果。
3.本文提出了一种用于搜索引擎评价的高效收集文档相关性特征的方法。这种方法能够提高评测的效率,不仅能够缩短评测周期,还能够提高在低频查询上评测的可靠程度。这种方法动态地度量文档对于搜索引擎评价的影响程度,然后对搜索结果的展示顺序进行重新排序,使用户比较容易看到对评测结果影响较大的文档,从而吸引用户提供关于这些文档的反馈信息,从而能够从用户较少次数的反馈中获取更有价值的评价信息。
4.本文提出一种综合更多搜索引擎特性的指标:有效时间比。有效时间比是指用户用于获得相关信息的时间占总搜索时间的比例。直观上说,有效时间比越高,说明用户相对浪费的时间越少,从而获得的收益越大。对于不提供文档展示信息的搜索系统,该指标等价于系统的精度。这种指标的一个好处是综合搜索引擎的更多特征。特别的,它可以综合检索系统的检索准确率特征和文档摘要生成系统的摘要生成质量特征。通过实验发现,这种指标能够更好地反映用户使用搜索引擎的满意程度。