基于点击日志分析的搜索引擎质量评价方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:ghmyjp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎质量评价是一个非常重要的问题。对于使用者,它可以帮助他们选择合适的搜索引擎,找到满足信息需求的信息;对于搜索引擎的研究和开发人员,它能够帮助他们比较各组件算法的好坏,发现系统瓶颈,从而改进服务质量。   传统的搜索引擎评价方法基于Cranfield范式。Cranfield范式的提出已经有五、六十年的历史,当代的搜索引擎发生了很大的变化,使得Cranfield范式不再完全适用于当代搜索引擎质量的评价。首先,当代搜索引擎处理的查询和文档的规模大大增加,获得一个可靠的信息需求-文档相关性标注集合将越来越困难。其次,当代搜索引擎的功能不只是返回用户一个文档列表,它们一般具有更多的功能特性(如对每个文档产生一个和查询相关的摘要等)。这些功能模块的质量会直接影响用户的使用体验,因此需要有针对这些新的功能模块的新的评价方法。   为了解决以上使用Cranfield范式对搜索引擎质量进行评价中出现的困难,本文研究通过分析搜索用户的点击日志,对搜索引擎的质量进行准确而高效地评价的方法。这种方法不要求大量的信息需求-文档的相关性关系的标注,从而大大减少了搜索引擎质量评价所需的人力代价和时间代价。它自动地分析搜索用户的点击日志,从中提取能够反映搜索引擎质量的特征,然后利用这些特征来评价搜索引擎的好坏。本文提出两种利用用户点击日志评价搜索引擎质量的方法。第一种方法通过归并两个搜索引擎的结果,展示给用户,然后使用规则从用户的点击中推测出哪个搜索引擎更好的结论。第二种方法通过展示(一个或两个)搜索引擎的结果,使用用户点击模型从用户点击中推测出文档,展示信息的特征,然后综合这些特征来评价搜索引擎的质量。   概括起来,本文的贡献如下:   1.本文提出了一种对搜索引擎归并一比较方法进行系统评价的框架,以及一种基于位置信息的归并.比较方法。一种常用的利用用户点击日志进行搜索引擎评价的方法是归并一比较方法。它归并两个搜索引擎的结果,展现给用户,通过发现用户更加倾向于点击归并结果中哪一个搜索引擎的结果,来获得哪个搜索引擎质量较好的结论。但是,并没有一种对这些归并.比较方法进行评价的框架,来比较这些方法的好坏。本文提出一种对归并-比较方法进行系统评价的框架,该框架可以模拟在各种情境下搜索引擎和用户之间的交互,从而可以测试归并-比较方法在各种情境下的相对优劣。通过对各种归并-比较方法的评测结果的分析,发现已有方法具有一个普遍的弱点:它们一般只是对文档的点击次数进行计数,而并没有有效地利用文档在原始排序结果中的位置信息,因此会造成一些误判。而相关/不相关文档在原始文档序列中的位置,对于评价搜索引擎的结果也有非常重要的影响。我们提出基于位置信息的归并.比较方法,从而提高了比较结果的准确性。   2.本文提出了基于用户满意程度和用户浏览时间的点击模型。很多研究发现,搜索用户比较倾向于点击比较靠前的文档。这种现象通常被称为信任偏差,我们分析了这一现象的来源。通过对用户点击日志的分析,我们发现,使用查看假设和级联假设,对用户的浏览行为和文档特征进行建模,就可以解释信任偏差这一现象。进一步的,我们提出用户满意度点击模型。这一模型假设用户的满意程度会决定他是否继续浏览搜索结果,其中用户满意程度可以通过所有己经点击过的文档的相关性进行估计。我们还提出用户浏览时间点击模型。这一模型假设文档原文的相关性程度会影响用户浏览文档的时间,所以可以通过用户浏览文档的时间来推测文档相关程度。两种模型在预测用户点击的能力上,都取得了比现有的点击模型更好的效果。   3.本文提出了一种用于搜索引擎评价的高效收集文档相关性特征的方法。这种方法能够提高评测的效率,不仅能够缩短评测周期,还能够提高在低频查询上评测的可靠程度。这种方法动态地度量文档对于搜索引擎评价的影响程度,然后对搜索结果的展示顺序进行重新排序,使用户比较容易看到对评测结果影响较大的文档,从而吸引用户提供关于这些文档的反馈信息,从而能够从用户较少次数的反馈中获取更有价值的评价信息。   4.本文提出一种综合更多搜索引擎特性的指标:有效时间比。有效时间比是指用户用于获得相关信息的时间占总搜索时间的比例。直观上说,有效时间比越高,说明用户相对浪费的时间越少,从而获得的收益越大。对于不提供文档展示信息的搜索系统,该指标等价于系统的精度。这种指标的一个好处是综合搜索引擎的更多特征。特别的,它可以综合检索系统的检索准确率特征和文档摘要生成系统的摘要生成质量特征。通过实验发现,这种指标能够更好地反映用户使用搜索引擎的满意程度。
其他文献
自动人脸识别是计算机视觉和模式识别研究中最具挑战性和最活跃的研究课题之一。过去十年,人脸识别系统的性能得到了很大的提升。特别是基于统计学习的人脸识别方法取得了很大
讲故事已经被证明能够支持儿童的读写、听力、词汇能力及其它语言能力的发展。随着计算机技术的不断发展,信息技术逐渐引入儿童教育领域。如何更好地利用计算机讲故事还在研
随着时代的发展,信息的采集、传播的速度和规模达到空前的水平。面对极度膨胀的信息量,面对数据过剩的巨大压力,数据挖掘技术为从海量数据中快速准确获取有效信息提供了支持,
随着集成电路工艺的进步和计算机技术的发展,计算机系统的功耗逐步成为制约计算机技术进一步发展的瓶颈。为了解决计算机系统的功耗问题,各种功耗管理技术应运而生,成为学术界、
命名实体是用来标识一个客观存在的事物的词或短语,是信息表达的重要载体,用来表达文本的主要内容。近十几年来,中国的互联网信息产业发展非常迅速,大量的信息以电子文档的形
随着网络的普及和居民消费需求的提升,网络购物这种新型消费模式迅猛发展,使面向普通消费者的快递物流业成为了物流行业新的爆发点。电商对物流的时效性要求越来越高,使得快
随着信息化的推进,软件应用的领域越来越广泛,软件本身的复杂性也随之加大。如何保证软件质量一直是计算机技术的热门研究领域。单元测试是保证软件质量的重要环节。如何解决
随着信息技术的迅速发展,社会网络变得无处不在,从生物学到互联网,从大型的电力网到人际关系网等等。从大量的数据中提取有效的、可信的、新颖的信息的数据挖掘成为了当今的
网络协议分析工具是一套软件工具套件,主要是用于分析网络协议的数据以及状态等信息,通过捕获和过滤原始数据,获得大量网络数据基本信息,并对原始数据进行分析。从而达到分析
以2009年3G网络正式投入运营为标志,中国移动互联网产业进入飞速发展时期,与此同时,智能手机也开始流行。智能手机和3G网络的兴起使不良信息在移动互联网中的传播有了更好的硬件