论文部分内容阅读
随着企业信息化的发展,企业内部的数据资源正在急剧膨胀。企业对信息的管理和资源的访问提出了更高的要求,因此,建立企业内部搜索引擎具有必然性,也是企业信息资源管理的发展趋势。企业搜索引擎实现的关键技术之一是对企业内各种信息化资源索引结构的构建,索引结构的构成方式在很大程度上对企业搜索引擎的检索性能起着决定性作用。本文在对企业内部搜索引擎设计时,在传统索引结构的基础之上经过创新改造,将云计算思想引入到索引系统中,提出了一种新的索引框架——索引云模型,并在此基础上提出了新的企业搜索引擎体系架构。本文首先阐述了搜索引擎的概念和分类,研究了搜索引擎的工作原理和技术,了解了搜索引擎的发展,然后阐述了云计算的概念和分类,研究了云计算的技术和实现。本文对索引的组织方式进行了细致的研究,阐述了索引的概念和索引文件的组织方式,对几种常用的索引组织方式B-树、B+树、R树、R*树进行了详细的研究和讨论。对索引项的构成方式,如正排索引、倒排索引、后缀数组、签名文档技术进行了介绍。在搜索引擎和云计算理论的基础上,依据索引理论提出了索引云模型,该模型基于数据分类存储、分布式运算及并行处理三个基本原理进行设计,具有高度虚拟化、高性能、高可靠性、安全性强、可扩展性强、通用性好等显著特点,更适合于企业搜索引擎的需求。本文对索引云模型进行了全面深入的研究,详细给出了索引云的定义、索引云的原理、索引云的基本特征。针对搜索引擎中索引组织策略在检索性能和可扩展性等方面存在的问题,在对基本索引组织策略进行比较后,本文在索引云系统中采用了一种混合型分布式索引组织策略。在索引云数据结构中,采用了一种新的以B+树为基础结合字典顺序数据结构的DicB+Tree索引树结构的框架DPIC (Distributed & Paralleling Index Cloud).基于DPIC设计了索引云的核心管理策略,保证了系统资源能够得到最大限度的利用。研究并给出了索引云的内部处理架构、索引数据的组织方式,索引数据的分配,索引项数据的备份以及索引数据的调整和重构的方法。此外,本文还详细阐述了索引云中的数据检索任务的分析、分布式调度的处理过程。本文系统综述了企业搜索引擎的特点、企业搜索引擎技术的研究现状,分析了企业搜索引擎在检索需求、检索方法、检索对象和安全性等方面与传统的web检索存在的差异。因此,我们需要从搜索引擎的系统架构、索引组织策略、信息检索算法以及任务调度算法等方面全面研究企业搜索引擎系统,提出了企业搜索引擎与云计算相结合的思想。本文进一步提出了基于索引云的企业搜索引擎体系架构。介绍了企业搜索引擎的三个组成部分:通用存储平台、通用服务平台、通用应用平台,并详细说明了三个平台实现的方法。它以较低的硬件投入解决了全文搜索系统索引文件膨胀,网络带宽瓶颈以及磁盘I/O瓶颈等问题,提供了高效的数据存储和并行计算服务。本文设计出针对此体系的分布式的任务调度设计,综合考虑到索引节点的任务负载水平和索引词频,优化任务分配,避免出现系统热点,提高了索引系统的查询速度和可靠性。本文利用分布式开源系统框架Hadoop和开源搜索引擎系统Lucene,搭建了基于索引云原型的企业搜索引擎系统,进行了系统性能实验验证。本文详细讨论了基于索引云架构的企业搜索引擎的实验系统中各个部分的详细构建方法,从响应时间、吞吐率、负载均衡度等三个方面,对索引云原型系统进行了评估,证明了其可行性和良好的应用效果。