基于效用的搜索引擎查询推荐研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:romotic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
查询推荐是现代搜索引擎,诸如谷歌,必应和百度等普遍采用的一项重要技术。搜索引擎查询推荐技术的核心目标是为搜索引擎用户推荐能够满足他们信息需求的查询。但是现有的搜索引擎查询推荐技术都致力于推荐与用户提交的查询相似的查询。因为推荐相似的查询与查询推荐的核心目标是不一致的,所以基于相似性方法的推荐结果的准确率较低。在本论文中,为了提高推荐结果的准确率,我们提出了基于效用的查询推荐方法。高效用的查询就是包含用户想要的有用信息多的查询。本文的主要研究内容包括:  1面向用户信息需求的查询排序模型为了提高推荐结果在满足用户信息需求上的准确性,我们首先提出了查询排序模型(query ranking model)。与现有的基于相似性的查询推荐方法不同,查询排序模型是面向用户信息需求的,而且是基于效用性的。给定起始查询,查询排序模型根据候选查询的效用进行排序,推荐那些效用最高的查询给用户。查询排序模型通过评估候选查询的联合概率来计算查询效用。这个联合概率包括三个事件:查询被用户选择,查询的搜索结果被用户点击,被点击的搜索结果满足用户的信息需求。我们定义了三个效用来解这个模型:查询级效用,用来表示查询对用户的吸引性;感知效用,用来测量用户点击查询搜索结果的概率;后验效用,用来测量用户从他点击的搜索结果中获得的有用信息的量。查询排序模型通过分别建模用户重构查询的行为,建模用户点击查询搜索结果的行为,建模用户在搜索的过程中感到满意的行为来计算这三种效用。在真实的搜索引擎查询日志上的实验结果表明,查询排序模型与传统的基于相似性的查询推荐方法相比,推荐的查询在满足用户信息需求上准确率更高。  2增量式Logistic Regression模型及其在增量式查询排序模型中的应用我们提出增量式Logistic Regression模型,使其能够处理不断增加的训练数据。我们使用增量式Logistic Regression模型的技术,将查询排序模型扩展为一种增量式模型。增量式查询排序模型有两个重要的意义:第一,为了保证推荐的结果不过时,增量式的查询排序模型可以处理不断更新的日志数据,进而保证查询推荐结果不过时。但是,当前搜索引擎查询推荐的相关研究工作很少涉及这个问题;第二,增量式查询排序模型可以处理大规模数据(1000万搜索记录以上)。因为当前的搜索引擎日志量较大,所以,传统的查询推荐技术所采用的一次性批处理方法无法处理大规模日志。相反,增量式查询排序模型可以将日志数据分成若干份,进而以更新的方式将后续的日志数据更新到已经构建好的查询库中。在实际的搜索引擎查询日志上的实验结果表明,在不失去准确性的前提下,增量式查询排序模型比查询排序模型能够更加高效的处理增量的查询日志。  3基于文档效用的查询排序模型查询排序模型建模查询的效用,把查询的效用看成一个整体,而忽略了查询的效用是由与查询相关的文档的效用构成的这一个客观事实。因此,为了提高推荐结果的准确性,我们提出了基于文档效用的查询排序模型。我们做出了如下的贡献:第一,提出了新的建模文档吸引性的方法。新的查询排序模型通过建模查询的每个搜索结果的吸引性来求解查询的感知效用,而不是仅仅统计查询搜索结果的点击率,这提高了感知效用的推荐精度;第二,提出了新的建模文档后验效用的方法。新的查询排序模型建模每个被点击文档的后验效用而不是查询的后验效用,这提高了后验效用的推荐精度;第三,提出了新的建模查询级效用的方法。在求解查询级效用时,新的查询排序模型不仅考虑每个查询被重构的概率,还考虑每个查询被重构的先后顺序,这提高了查询级效用的推荐精度。新的查询排序模型推荐的查询比现有的查询推荐方法推荐的查询在满足用户信息需求上具有更高的准确率。  4基于查询重构图的效用性查询推荐方法我们先提出查询重构图,之后在其上进行随机游走进行效用性查询推荐。因为随机游走方法简单,易于实现,且推荐效果好,所以,该方法已经被传统的基于相似性的查询推荐方法所广泛使用。为了将基于图的随机游走方法引入到效用性查询推荐方法中去,我们提出了查询重构图。现有的基于相似性的查询推荐方法使用的图仅仅建模查询之间的相似性,而查询重构图建模用户的三种搜索行为:不满意并重构下一个查询,不满意并停止搜索,满意并停止搜索。相应的,查询重构图由查询节点,满意文档节点和中断节点三种节点组成。查询的效用存在于这些满意文档节点中。为了获取这些效用,我们先在查询重构图上进行一个吸收态的随机游走,用起始查询节点到满意文档节点的转移概率建模文档的效用;之后,将文档的效用传播给相应的查询从而得到查询的效用;最后,推荐高效用的查询给用户。在真实的查询日志数据上的实验结果表明,查询重构图的推荐结果比经典的查询推荐方法和查询排序模型推荐的结果在满足用户的信息需求上准确率更高。  通过上述研究我们发现,基于效用的查询推荐方法比传统的基于相似性的查询推荐方法的推荐准确性更高。这是因为,基于效用的推荐方法侧重于推荐更能满足用户信息需求的查询,而传统的基于相似性的方法致力于推荐与原始查询在语义上相似的查询。因为,在查询推荐的应用场景中,原始的查询无法满足用户的信息需求,所以,与原始查询语义相似的查询通常也无法满足用户的信息需求。由于当前的基于相似性的查询推荐技术致力于推荐语义最相似的查询,这个问题尤为突出。目前,基于效用的搜索引擎查询推荐研究还处于兴起阶段,很多问题值得我们进一步研究,本文的研究工作为这一领域的未来研究奠定了基础。
其他文献
互联网应用的用户数量越来越多,分布越来越分散,使得建立多个数据中心并采用多数据副本策略来支持不同地域用户高效访问应用的方式逐渐成为业界的共识。广域数据多副本部署方
随着信息系统应用领域的发展,其应用环境日趋复杂,应用模式变化迅速。为了解决复杂多变环境中,软件应用服务跟不上需求变化的问题,迫切需要自适应的软件架构以适应复杂的应用环境
火灾的防范和早期火灾的发现是一个很重要的问题。传统的自动消防技术多采用感温技术、感烟技术,而忽略了火焰本身,存在着诸多不足。随着计算机技术的发展,图像处理、图像识别技
随着激光扫描技术的发展,采用三维激光扫描仪获取单个物体,室内室外场景的三维点云信息已经成为可能,从而使得基于激光三维点云的建筑物建模,植物建模,以及在此之上的场景的理解和
随着实时业务的快速增长和业务形式的多样化,目前IPv4传统的“尽力而为”的服务模型已难以满足相关业务需求。首先,以资源共享为目标的核心协议(IP)难以更好地满足QoS保证的要
学位
中文未登录词识别问题是限制中文自动分词,文本的挖掘、聚类、过滤,机器翻译,信息抽取等技术成果进一步提升的关键要素之一。中文人名在未登录词中所占比例最重,它的识别,既
随着现代科学技术的发展以及人民生活水平的提高,智能设备的普及率已经越来越高,住宅家居智能化将是一个重要的发展趋势。近年来,国内外对智能家居的研究初具规模。而现有的家居
随着近年来视频通信、数字娱乐等产业快速发展,三维人脸重建成为了计算机视觉以及计算机图形学领域的研究热点。目前,基于物理装置、视频、和多幅图像等的三维人脸重建方法不仅
如今计算机软件已经应用到各个行业中,石油行业有大量的数据需要采集、处理、计算得出结果用于指导石油行业的生产,因此尤其需要软件的支持,而软件质量就成为一个重要的问题