论文部分内容阅读
本文针对企业检索的应用背景,以构建高性能分布式全文检索系统为目标,在方正全文检索引擎的数据和实践基础上,研究了分布式全文检索系统的增量检索策略和效率优化。具体内容包括:
1.分析了分布式全文检索引擎的设计与实现技术。方正全文检索引擎是面向企业检索应用环境的高性能检索引擎。分布式的系统构架有效解决了系统可扩展性问题,是处理当前爆炸性增长的企业数据所必需的。总结了本系统在索引创建和检索上的相关实现技术,它们是高效检索系统实现的保证。
2.设计了一种单机多线程并发索引策略。针对创建索引过程中各阶段使用硬件资源不同的特点,使用多个线程分别执行不同的索引阶段,以流水线方式创建索引。这种策略能够最大程度利用硬件资源,提高创建索引过程的效率。特别是在多CPU服务器上,可以充分利用所有CPU的计算能力。通过实验,考察并分析了并发索引算法中各参数对索引效率的影响,并且确定了实验系统上的最佳参数。
3.提出了一种适合分布式索引的增量更新策略。针对企业检索单次更新数据量小但更新频繁的特点,利用主索引/辅助索引相结合的形式,主索引包含大部分数据但很少更新,辅助索引仅包含最近更新的数据。当辅助索引增长到一定程度时,由后台进程将其合并到主索引。利用这一策略可以在几乎不降低检索性能的前提下实现准实时(秒级)的增量更新。
实践表明,根据本文设计构造的分布式检索系统可以有效地索引千万文档量级的文本数据,系统具有较好的伸缩性,并能在不牺牲检索性能的前提下支持实时增量更新。