论文部分内容阅读
分布式全文检索技术是信息处理领域的核心技术之一,目前被广泛应用于竞争情报、信息检索、搜索引擎以及信息过滤等领域。对高效分布式全文索引技术的深入探讨不仅拥有重要的理论价值,同时还具有巨大的商业价值。随着互联网的日益普及,各式各样的数据以更快的速度产生,数据总量成指数级增长,面对海量的数据,相关数据索引文件的大小也持续增加。传统的单机索引系统基本不能满足海量数据的索引需求,而分布式索引系统可满足上述需求,并实现海量数据的分布式索引。分布式索引系统的核心技术涵盖了分布式索引创建、索引查询、分布式索引的数据分配以及分布式索引的负载均衡等内容。本文将近几年来流行的文本处理技术——压缩全文自索引应用到分布式索引当中,并讨论该索引结构下的查询策略。本文对分布式全文索引技术研究的内容包括:(1)当前主流的分布式索引系统主要采用倒排索引结构,运行在高性能集群中的倒排索引对查询的响应时间可达到毫秒级别。然而,倒排索引除了需存储自身信息之外的信息,还需要额外存储信息用于支持搜索引擎实现存储片段抽取、排序和位置信息、查询缓存等功能,从而导致存储空间的利用效率偏低。本文创新的将当前文本索引研究的热点压缩全文自索引应用到分布式索引系统当中,提出一种基于改进哈夫曼编码的小波树压缩算法,并与后缀数组将结合,实现了能适应分布式环境下的压缩全文自索引结构及对应的高效创建算法。(2)索引系统在搜索引擎中主要发挥以下两种作用:第一,根据一定的规则创建网页文档的索引,便于后续查询;第二,按照用户提出的查询命令检索索引文件,同时按一定规则对索引文件进行排序并将结果返回客户端。基于新改进的压缩全文自索引结构,提出了一种分布式环境下的查询处理策略。(3)结合以上研究内容和相关研究成果,提出一种分布式全文索引系统架构,该系统有利于实现各种各样非结构化数据的分布式索引,进而实现海量非结构化数据的查询和索引性能。详细介绍了系统中索引集群、查询集群以及分布式文件系统的设计,最后测试该分布式索引系统查询处理的高效性。