基于查询日志的Web搜索引擎缓存技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:kkkhorse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web搜索引擎为互联网网民获取信息提供了重要途径,商业搜索引擎每天接收数以亿计的查询请求,高效获取所需要的信息成为搜索引擎的重大挑战。本文利用搜索引擎查询日志研究搜索引擎缓存技术,以达到提高搜索引擎查询检索效率的目标。本文提出了具有创造性的搜索引擎缓存方法,在大规模真实用户查询日志上验证了这些方法的有效性。本文的主要贡献和创新点如下:   1.提出基于查询特性和用户特性的搜索引擎查询结果缓存与预取方法。通过在搜索引擎两个月的大规模真实查询日志分析得出,用户对搜索引擎的贡献具有长尾分布特性,结合该特性设计查询结果访问预测模型和缓存方法。实验结果表明,与传统的典型方法相比,该方法可以获得3.03%~8.45%的缓存命中率提升。   2.提出预取感知的查询结果缓存接纳策略。查询结果预取导致查询结果页码的缓存缺失率具有显著差异性,结合该特性设计预取感知的接纳策略,该策略包含查询评估模型以及模型特征。实验结果表明,与传统的典型策略相比,该策略可以获得6.38%~11.99%的缓存命中率提升。   3.提出搜索引擎第二级缓存问题。在搜狗搜索引擎用户查询日志上,研究第二级缓存的工作负载以及不同的缓存替换策略对第二级缓存产生的影响。实验结果表明,在小容量配置下,静态缓存策略能够获得最佳缓存命中率;当容量扩大时,LIRS(LowInter-referenceRecencySet)替换策略效果最好;当第二级缓存容量很大时,MO(Multi-Queue)替换策略效果最好。   4.从查询局部性、缓存策略、缓存容量、工作负载周期性等方面对大规模搜索引擎查询日志进行分析。还针对查询历史信息的时间跨度问题,探讨其对缓存命中率的影响。
其他文献
随着数码相机与智能手机的普及,以及社交网络的快速发展,图像与人们生活的联系越来越紧密。图像的快速传播与普及在给人们生活带来便利的同时,也给图像的处理、分析与理解带了巨
近年来,随着各种富因特网应用(Rich Internet Application, RIA)技术及工具的兴起,Web应用程序中的用户界面正由传统的超文本语义型向丰富多彩的桌面型转变。本论文就是采用
在当前互联网时代,如何便捷地从海量文本数据中获取有效信息是我们面临的巨大挑战。文本信息检索的主要任务是根据用户输入的查询语句,为用户找到最相关的文档。然而,由于用户的
随着通信与IT技术相结合的ICT应用的不断发展,人们越来越意识到了系统间融合的必要性。目前移动通信和物联网在各自的领域都有着较为快速的发展,天线是这两个系统都必须的信
随着海量数据时代的来临,分布式数据处理系统己成为海量数据处理的解决方案。针对不同的应用场景,学术界和产业界推出了多个并行编程框架。通过对不同的并行编程框架研究分析
随着计算机时代的到来和信息技术的快速发展,企业信息化成为企业在竞争中发展进步的必然选择。报表是企业进行数据整理、格式化和数据展现的一种有力手段。报表可以为用户提
传统示波器的调试方法不利于伺服系统的现场测量和测试,如果个人PC机能够做为调试工具,将使伺服系统的调试更加的方便。伺服驱动器PID参数设置对系统的各项性能指标具有重要影
Android是一种以Linux为基础的操作系统,主要用于便携设备。一经推出,便凭借其免费与开源的特性迅速抢占市场。2011年8月,Android操作系统更是在全球智能手机操作系统的市场
近些年来,互联网已经从资源共享的工具转变为海量信息分发与获取的平台,人们更加关注内容是什么,而非内容在哪儿。为满足这一趋势,内容为中心的网络被提出,而缓存功能的加入
随着互联网技术的快速发展,Web服务技术无论在研究领域还是网络应用领域都备受关注,Web服务的广泛应用使得Web服务的数目也在快速的增加,功能相同或者相似的Web服务也会随之