论文部分内容阅读
传统的信息检索技术往往是集中式的,随着数据量的指数增长,这种集中式的数据存放对于数据库的更新维护带来很大的难度,同时检索查询操作也变得非常费时,这造成了整个系统性能的瓶颈。网格技术可以集中网络中闲置的计算资源和能力,提供巨大的计算能力和存储空间。本文将网格技术引入到信息检索中,与传统集中式信息检索相比,网格分布式信息检索将各种相关计算任务分配给网格上对应的计算节点,由于采用分布式的体系结构,可以提高速度,有效地提升了信息检索系统的整体性能。本文在深入分析了国内外研究的基础之上,吸取这些研究的经验教训,设计并初步实现了在网格环境下,可以根据用户提出的检索需求,快速、准确地找到所需的网格资源的分布式信息检索系统框架,并验证其可行性。文章在分析传统的集中式信息检索系统的诸多缺点的基础上,参考了国外网格信息检索小组提出的模型,引入用户兴趣模型和中文分词技术,使用基于NET的网格计算框架Alchemi设计了新的基于网格的分布式信息检索的模型,分析检索流程,并设计了系统安全访问控制模型。为了解决网格资源多样化的问题,引入元数据来统一繁杂的网格资源的表示方式,最后初步实现了其原型系统,通过实验证明了模型的可行性。论文的具体研究工作如下:参考现有的网格分布式信息检索的策略和方法,详细设计了基于网格的分布式信息检索的框架,并分析了具体的检索步骤,给出了基于用户模型和中文分词的检索策略,详细设计了系统的模块和各个模块的功能,给出两种系统访问模型。同时,鉴于网格资源的格式繁杂,引入元数据来统一网格资源的表示方式,给出了网格资源的元数据定义。最后,在Microsoft. Net平台下开发了网格分布式信息检索系统,考虑到系统实现的复杂性,本文详细介绍了系统的核心模块Alchemi任务分发和管理模块的实现过程,并用实例和统计数据证明了系统的可行性和有效性。