互联网搜索系统中的高性能查询问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：yangtianlin888

【摘要】

：

随着网络技术的迅速发展和互联网应用的不断普及,可以从互联网上获得的信息呈爆炸式增长,互联网已经成为全球规模最大、使用最广泛的信息库。为了有效地从这些海量数据中检索

【作者】

：

朱明杰

【出处】

：

中国科学技术大学

【发表日期】

：

2009年期

【关键词】

：

搜索引擎信息检索性能优化 TopK处理索引剪枝

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络技术的迅速发展和互联网应用的不断普及,可以从互联网上获得的信息呈爆炸式增长,互联网已经成为全球规模最大、使用最广泛的信息库。为了有效地从这些海量数据中检索到需要的信息,互联网搜索引擎是一种必不可少的技术手段。互联网搜索技术已经成为信息检索领域的重要研究课题。由于海量的网页数据和巨大的查询需求,搜索引擎的效率是影响信息获取的关键问题。因此,本文主要研究提高互联网搜索效率的方法,并重点研究适用于大规模互联网搜索的TopK处理策略。TopK处理指使用各种优化手段、以最小的代价从海量文本信息中获得正确的前K个结果。能否实现高效的TopK算法,对互联网搜索的性能至关重要。本文的主要贡献包括以下几个方面:1.本文提出了一种利用网页结构化数据特征的倒排索引结构,并且提出了利用这种索引结构的高效TopK处理策略。在通用网页搜索中,当相关排序函数考虑Term Proximity等多种因素的情况下,所提方法能明显提高TopK处理的性能。本文还探讨了如何利用Term Proximity探测算法来进一步避免不必要的Term Proximity分数计算。在TREC数据集上的实验结果表明,本文中提出的算法不仅适用于线性组合的排序函数,对非线性的排序函数也取得了明显的效果,而且对于近似TopK处理问题也获得了预期效果。和传统的索引方法相比,创建基于网页结构化数据特征的倒排索只增加很小的额外复杂度,而且没有增加存储空间消耗。因此,这种索引结构完全符合大规模搜索引擎的需要。大量的实验结果证明本文提出的索引结构和算法是有效的。2.本文提出了一种通过对词组建立辅助索引来提高TopK处理性能的策略。考虑到传统信息检索能利用词组索引来实现高效的词组查询处理,本文总结了Term Proximity函数和词组的密切关系,提出对词组建立辅助索引来降低对Term Proximity分数上限的估计。这样在对倒排索引进行TopK处理时能够提前满足停止条件,或者节约不必要的Term Proximity分数计算,从而提高了通用网页搜索中TopK处理的性能。同时本文还研究了词组和词频分布的特点,提出只对最有必要的一部分词组建立辅助索引,尽可能地减少词组索引所占空间的开销。本文提出三种不同格式的精简词组索引,并且比较它们的性能和空间效率,同时还研究了利用精简词组索引帮助基于网页结构的倒排索引获得更高的TopK处理性能的可能性。3.针对面向对象的搜索系统,本文研究了对象聚合映射的TopK处理问题,提出了一个高效的TopK处理框架。对象聚合映射指的是利用一种对象的倒排索引有效地检索出另一种对象。传统的做法是将对象聚合映射的TopK处理分成检索和聚合两部分,而且主要优化其中的聚合部分。和传统方法不同,本文把检索和聚合两部分当作一个整体来考虑,提出了三种TopK处理的优化准则,并且利用多种类型对象的特征,建立了一种混合的倒排索引结构,获得了实质意义上的TopK性能提升。综上,本文提出了一系列针对互联网信息检索系统的TopK算法,通过在实际的大规模互联网数据集上进行的各种实验,证明了这些方法的合理性和有效性,本文研究的成果已经在实际的互联网搜索原型系统中获得了成功的应用。

其他文献

一类具功能反应的食饵-捕食模型的稳定性

研究了一类捕食者种群具有功能反应的食饵-捕食模型,运用线性化方法分别讨论了该模型及其反应扩散模型非负平衡点的局部渐近稳定性。

期刊

食饵-捕食模型扩散平衡点稳定性prey - predator model diffusion stability equilibrium poin

高校图书馆档案建设与管理工作分析

高校是一个云集了来自各地的优等学子的场所，图书馆又是高校历史的积淀以及文化的集合，对于图书馆的建设和管理也是高校建设中重要的组成部分，只有加强了图书馆的建设和管理才能

期刊

高校图书馆档案建设与管工作措施

嫦娥三号软着陆轨道设计与控制策略分析的研究

针对嫦娥三号软着陆轨道设计及控制策略，运用了开普勒定律、能量守恒定律、轨道动力学抛和物线拟合原理等方法，分别建立了近远月点速度求解、主减速动力学、曲线拟合和数值仿真

期刊

嫦娥三号软着陆开普勒定律敏感性分析曲线拟合模型MATLABChang-E Ⅲ soft landing Kepler＇s Laws sensitiv

“义”与“利”含义研究

中国思想博大精深，经济思想也是如此。在我国的经济思想中，“义利”思想是整个经济思想中非常重要的一部分，因为它是其他经济思想的基础。“义利”思想在先秦时代甚至在更早的时

期刊

义利义利观

高校自制仪器设备研发管理机制探索

摘要：随着高等教育的发展、实验教学改革的推进，高校对实验仪器设备的需求不断扩大，但市场上现有的仪器设备存在针对性不强、功能单一、价格昂贵等缺点，难以满足教学、科研的需求，在优势学科、特色专业下这一问题更为突显。针对该问题，本文阐述了高校自制仪器设备研发的必要性，探讨了自制仪器设备研发的长效动态管理机制，最后将该机制在中国矿业大学矿业工程国家级实验教学示范中心进行了应用，并取得了良好的效果。　　关键

期刊

自制设备管理机制优势学科self-made devicesmanagement mechanismdominant discipline

关于高新区发展数字印刷产业的切入点研究

本文主要研究了数字印刷产业的发展现状与趋势,以高新技术产业开发区的发展定位为依据,探讨了高新技术产业开发区发展数字印刷产业的切入点。

期刊

高新技术产业开发区数字印刷切入点

吉华电力股份有限公司资金集中管理优化研究

近年来,随着国家对新能源项目建设的大力扶持,吉华电力股份有限公司受国家政策和吉林省内外电力市场环境的影响,急需市场转型,由单一的火力发电发展到以新型绿色清洁能源为主

学位

资金集中管理短贷长投期限匹配ERP银企直联

大连市互联网+现代农业建设典型

<正>"品魏农场"点燃"互联网+绿色农业"金普新区大魏家街道大力发展现代农业,拥有2万亩大樱桃园、万亩无公害蔬菜生产基地和海参养殖基地,是大连远近闻名的果蔬之乡,也是享誉