论文部分内容阅读
随着网络以及计算机硬件的发展,对等计算(PeertoPeercomputing,简称P2P)技术受到越来越多的关注。在对等网络系统中,每个节点都拥有对等的功能与责任,节点之间的通信是直接对等的。同时,网络中的任何一个节点可以自由地加入和离开该系统,是大规模分布式的动态网络环境。这类系统在可扩展性、鲁棒性、信息可用性、系统资源利用率等方面具有许多潜在优势,迅速成为计算机研究界和工业界关注的热点。
文件的共享与搜索是当前基于对等计算领域应用研究与开发的主流,然而现有的基于对等网络的信息检索系统大多无法支持对于文件内容的搜索,仅停留在对文件名称的精确查询上。此外,在许多应用场景中,对于频繁更新的动态共享数据,如何保持网络中复本与源数据的一致性保持问题也亟待解决。
本文就对等计算环境下的高维搜索技术展开深入探讨,同时详细论述了如何在对等系统中保持动态数据的一致性问题,其目的在于探索如何在缺乏集中控制和全局信息的情况下对文档内容进行检索,进而拓展到对高维数据对象的索引和搜索,以及如何在共享数据动态更新的环境下保持各节点一致性问题。研究涉及到对等计算环境下的高维索引构造、利用与维护,数据和统计信息在网络中的路由策略,平衡网络中各节点的负载,以及增强网络可扩展性与稳定性等很多问题。
文中主要贡献可以总结为以下三方面:
●设计并开发了一种基于结构化P2P体系的信息检索平台P-Terse,为真实世界的应用提供一系列进行文本查询的技术。在P-Terse中,每个节点上都装备了一个本地的文本搜索引擎,所有节点按结构化对等计算网络拓扑进行组织,无需中央文件服务器的存在。系统具备良好的可扩展性,接口的定义与模块的执行细节相对独立,方便进行功能扩展和执行扩展。
●作为P-Terse的扩展,提出一种基于结构化P2P体系的超立方体索引模型,可以有效解决对高维数据对象进行索引和查询,同时具备高效的查询路由。巧妙的降维策略能够保证节点的索引信息经过降维后仍然保持一定程度上的相近性,可方便扩展至更复杂的查询。同时,设计了多种负载均衡策略,使得节点通过动态自调整有效平衡高维索引所引发的负载失衡问题。
●在P-Terse基础之上,对于动态更新的共享数据所引发的一致性保持问题提出PeerHeap架构。在没有任何集中式管理的情况下,利用节点一致性约束的强弱关系,通过多个节点的相互协助,实现动态共享数据更新的不断传递。同时提出有效的维护策略以保证PeerHeap的可扩展性和鲁棒性。
本文的研究工作是建立在对相关理论和已有技术的详尽分析以及大量的实验测试结果之上的。实验结果表明,我们提出的研究方法高效地利用系统资源并有效地满足用户需求。