一种分布式全文检索增量更新策略设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:hitiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对企业检索的应用背景,以构建高性能分布式全文检索系统为目标,在方正全文检索引擎的数据和实践基础上,研究了分布式全文检索系统的增量检索策略和效率优化。具体内容包括: 1.分析了分布式全文检索引擎的设计与实现技术。方正全文检索引擎是面向企业检索应用环境的高性能检索引擎。分布式的系统构架有效解决了系统可扩展性问题,是处理当前爆炸性增长的企业数据所必需的。总结了本系统在索引创建和检索上的相关实现技术,它们是高效检索系统实现的保证。 2.设计了一种单机多线程并发索引策略。针对创建索引过程中各阶段使用硬件资源不同的特点,使用多个线程分别执行不同的索引阶段,以流水线方式创建索引。这种策略能够最大程度利用硬件资源,提高创建索引过程的效率。特别是在多CPU服务器上,可以充分利用所有CPU的计算能力。通过实验,考察并分析了并发索引算法中各参数对索引效率的影响,并且确定了实验系统上的最佳参数。 3.提出了一种适合分布式索引的增量更新策略。针对企业检索单次更新数据量小但更新频繁的特点,利用主索引/辅助索引相结合的形式,主索引包含大部分数据但很少更新,辅助索引仅包含最近更新的数据。当辅助索引增长到一定程度时,由后台进程将其合并到主索引。利用这一策略可以在几乎不降低检索性能的前提下实现准实时(秒级)的增量更新。 实践表明,根据本文设计构造的分布式检索系统可以有效地索引千万文档量级的文本数据,系统具有较好的伸缩性,并能在不牺牲检索性能的前提下支持实时增量更新。
其他文献
本文所提出的思路,在信息系统的设计阶段,就充分考虑数据库的安全问题。把数据库安全体系的建设作为数据库设计过程中考虑的重点问题。从而防止那些因跳过数据库管理系统的外层
本文对基于嵌入式GIS技术的通信线路巡检系统进行了研究与开发。其中包括电子地图显示、操作、属性查询;巡检数据存储的组织形式、存储方式;巡检数据的分析、处理;巡检路线的实
科学计算可视化是当前计算机学科的一个重要研究方向,它的出现有效地解决了目前海量科学数据高效处理和解释这一难题。现代科学提供数据的手段多种多样,且所获得的信息也无法用
本设计把数据可视化技术应用于位场及地质数据的建模领域,针对地球物理、地质、气象以及分子物理领域产生的大量三维数据,在现有三维可视化技术韵基础上进一步研究更加逼真、
本文首先提出了现代意义的办公自动化的概念,阐述了办公自动化的现状和发展趋势以及所涉及的新技术。接着分析不同行业、单位特别是中小型企业的办公自动化系统的差异和存在的
如今的互联网涉及生活工作,给人们方方面面都带来极大的方便。之前,数据信息往往都是孤立,无法进行分享与利用。随着数据价值意识逐渐深入企业,不少企业将过往内部的信息资源进行
随着互联网的蓬勃兴起,企业应用从传统的客户机/服务器模式开始面向互联网,面向分布式应用。作为企业级应用程序解决方案之一,J2EE被认为是当今可用于企业软件开发的最佳平台。
近年米,伴随着Internet技术的飞速发展,传统的HTML数据交换方式己经越米越满足不了日益增长的数据交换的需求。XML作为一种极有前途的互联网上数据交换的新模式,己越来越多的取
本文首先介绍了分布式数据库系统的基本概念,如分布式数据库系统的模式结构及体系结构、数据分片的原则及分类、数据分布的策略等;然后简要描述了分布式查询的处理过程和分布式
网格的总体目标是在当前日益发达的网络传输基础设施的基础上建立信息处理基础设施,将分散在网络上的各种设备和各种信息以合理的方式“粘合”起来,形成高度集成的有机整体,向普