基于压缩全文自索引的分布式索引技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:bobo1116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式全文检索技术是信息处理领域的核心技术之一,目前被广泛应用于竞争情报、信息检索、搜索引擎以及信息过滤等领域。对高效分布式全文索引技术的深入探讨不仅拥有重要的理论价值,同时还具有巨大的商业价值。随着互联网的日益普及,各式各样的数据以更快的速度产生,数据总量成指数级增长,面对海量的数据,相关数据索引文件的大小也持续增加。传统的单机索引系统基本不能满足海量数据的索引需求,而分布式索引系统可满足上述需求,并实现海量数据的分布式索引。分布式索引系统的核心技术涵盖了分布式索引创建、索引查询、分布式索引的数据分配以及分布式索引的负载均衡等内容。本文将近几年来流行的文本处理技术——压缩全文自索引应用到分布式索引当中,并讨论该索引结构下的查询策略。本文对分布式全文索引技术研究的内容包括:(1)当前主流的分布式索引系统主要采用倒排索引结构,运行在高性能集群中的倒排索引对查询的响应时间可达到毫秒级别。然而,倒排索引除了需存储自身信息之外的信息,还需要额外存储信息用于支持搜索引擎实现存储片段抽取、排序和位置信息、查询缓存等功能,从而导致存储空间的利用效率偏低。本文创新的将当前文本索引研究的热点压缩全文自索引应用到分布式索引系统当中,提出一种基于改进哈夫曼编码的小波树压缩算法,并与后缀数组将结合,实现了能适应分布式环境下的压缩全文自索引结构及对应的高效创建算法。(2)索引系统在搜索引擎中主要发挥以下两种作用:第一,根据一定的规则创建网页文档的索引,便于后续查询;第二,按照用户提出的查询命令检索索引文件,同时按一定规则对索引文件进行排序并将结果返回客户端。基于新改进的压缩全文自索引结构,提出了一种分布式环境下的查询处理策略。(3)结合以上研究内容和相关研究成果,提出一种分布式全文索引系统架构,该系统有利于实现各种各样非结构化数据的分布式索引,进而实现海量非结构化数据的查询和索引性能。详细介绍了系统中索引集群、查询集群以及分布式文件系统的设计,最后测试该分布式索引系统查询处理的高效性。
其他文献
本文基于在TalentBase3.0的组织管理系统及其辅助工具的开发过程中所做的技术研究与实际开发工作,阐述了系统中诸多开发重点的设计和实现,并论述了其中遇到的技术难点的解决方
随着无线通信技术的不断发展,移动Ad hoc网络的应用也越来越被重视,该网络不仅应用于军事领域,在民用领域中也得到了广泛的应用。移动Ad hoc网络不依赖于基础网络设施,是一种能够
无线传感器网络作为物联网的基础,将实际存在的客观世界与虚拟的信息数据世界紧密的联系在一起。无线传感器网络应用的前提是高效的收集数据,即传感器节点将通信范围内的数据采
随着自然语言应用系统的进步,对自然语言处理的基础部分,自动分词分句的准确率的要求也越来越高。汉语自动分词分句的自动评判系统的研究已经成为一项亟待解决的紧迫课题。虽
目前,研究和实施先进控制和实时优化技术,已经成为过程工业企业提高科学管理水平和经济效益的重要对策。 本文分析了RBF神经网络的算法和性能,研究了对RBF神经网络进行改进的
小波框架理论是信号处理的一种有效工具,目前已经广泛应用于小波分析、信号分析、图像处理数值计算等理论和应用领域。本文阐述了小波分析与框架的一些基本理论,并且在已有的
为了实现以订单为中心的买卖双方交易的自动化,解决传统企业在商业运作中与供应商、代理商、分销商之间的沟通与数据交换问题,为客户提供在线销售管理平台和周到的全套网络信息
目前,软交换已经被公认为下一代网络(NGN)的核心技术,它的发展受到越来越多的关注。作为下一代网络的控制功能模块,软交换为下一代网络具有实时性要求的业务提供呼叫控制和连接控
进程代数作为描述和分析并发与分布式系统的重要工具之一是并发理论的主流研究方向。互模拟是进程代数中刻画行为等价的核心概念,而模态逻辑特征是它的一个重要性质。随着进
面对当今激烈的市场竞争,信息对企业的生存和发展起着至关重要的作用。数据仓库技术能有效地解决企业中普遍存在的“数据过剩、信息不足”问题,使企业有效组织和管理数据,从而分