PARADISE索引系统的改进及应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:keremslr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的快速增长,搜索引擎的作用越来越重要。索引技术在网络服务中应用广泛,而索引系统是搜索引擎主要部分之一,它在搜索引擎中发挥着重要作用。基于倒排表的索引系统有着比较复杂的内部结构和逻辑,在设计和实现的时候有很多需要考虑的因素。   北京大学网络实验室独立开发了PARADISE系统,PARADISE是Platformfor Applying.Researching And Developing Intelligent Search Engine的简称,它是一个开放式的搜索引擎平台,提供了一组可配置、可替换的工具,用户可以根据自己的需要,定制相应的系统。   在将PARADISE的索引系统应用到研究和工程领域的过程中,我们遇到了一些问题,针对这些问题,本文做了如下的一些工作:   1、重新设计并实现了PARADISE索引系统。针对前一个版本的诸多问题,我们将整个索引进行了重新设计和实现。这个过程中,我们增加了用于改善性能的的缓存模块;重新实现了存储模块、文档表示模块,并增加了很多新的功能和接口;对于顶层的倒排、字典、正排模块,则完全重新进行了设计和实现,包括索引文件格式、跳查机制、索引流程等等。   2、详细介绍了PARADISE索引的改进情况。这包括单机索引文档数量的增加、索引构建速度的提升、检索速度的提升、可扩展性的增强等等。   3、介绍了PARADISE索引系统的应用情况。首先,我们使用PARADISE参加的TREC2009的Web Track评测,应用索引系统对较大规模的数据进行了处理。其次我们将索引系统应用到北京大学的校内搜索服务,取得了比较好的效果。  
其他文献
随着计算机网络的飞速发展和信息化的推进,数据集成技术得到了越来越广泛而深入的应用,也引起了学术界和工业界的高度重视。XML由于其半结构化等特性使其能够集成来自不同数
随着数据库管理系统应用环境的不断变化,一方面,数据管理、数据访问等相关技术变得越来越复杂;而另一方面,维护成本变得越来越昂贵。于是,企业为了更好地专注于所擅长的业务领域,会
随着计算机和网络技术的发展,工具书由纸质载体逐渐向电子版本的方式发展,商务印书馆拥有一百多年的历史,是国内首屈一指的出版和文化机构,至今出版各类书刊近5万种,其中包括大量
自从XML,诞生以来,越来越多的数据以XML文档格式存储和发布,XML已经成为Internet和Intranet上数据集成和交换的标准,被广泛应用于电子商务、内容管理、多媒体、数字图书馆以
由于广东省珠三角地区工业现阶段的发达,其自然环境特别是农业环境也日益呈现出存在着重金属污染的严重问题。土壤重金属污染带来的问题,对人类健康、生态环境和社会的发展,都有
电子投票(Electronic Voting)泛指使用电信、网络、电子机械等手段投票或者通过电子方式计票的投票活动。使用电子投票可以显著地提高计票工作的效率;同时,投票方式的多样化也
历史网页集是一个规模庞大、随时间动态变化,同时承载了许多有价值的信息的数据集。本文研究了在这样一个数据集上进行二维区间数据查询的性能优化问题。二维区间数据查询由两
二进制代码逆向分析在系统安全领域有着广泛的应用。涉及面向对象语言的逆向分析面临的一个基本问题是如何从二进制代码中解析出由虚函数引起的间接调用。本文基于符号执行等
移动通信数据是移动通信用户之间互相联系而产生的,包含着通信的时间、地点、时长等信息,因而能够更真实而准确的反应用户的实际社会关系。同时,随着移动通信技术的不断发展
链接预测是一个具有挑战性的新型研究方向。随着Internet的快速发展以及电子应用的迅速普及,产生了越来越多的基于互联网的大规模的在线社会网络数据,这些数据便于收集并且从