论文部分内容阅读
与集中式搜索引擎相比,构建在P2P网络上的文本检索系统在可扩展性、数据更新、维护成本和安全性等方面具有与生俱来的优势。由于P2P网络中的节点缺乏全局网络的拓扑知识,如何定位节点资源、减少网络节点之间的通信开销成为P2P网络中文本检索的核心问题。本文基于小世界模型研究了P2P网络中的文本检索问题,主要贡献如下:针对向量空间模型中文档矩阵高维稀疏的问题,提出了一个P2P网络节点文档向量降维的方法。该方法将文档中词频出现两次以上的词条作为文档的摘要信息,来表示节点文档内容,然后根据改进的STC算法为选出的词条建立了一个树状的层次结构。在计算文档向量相似度时,采用sigmoid函数为不同层次的词条赋予不同的权重。针对Gnutella网络中转发消息的泛洪问题,基于小世界模型提出了一种无结构P2P网络文本检索的方法。该方法中,P2P网络的每个节点都维护一定数量的短程连接邻居节点和长程连接邻居节点,由此来构建具有小世界特性的网络。邻居节点的更新策略是在节点的查询和应答交互过程中进行的,每次查询结束后,都会更新邻居节点文档向量中关键词的权重,使得节点能够动态地快速了解网络的拓扑情况和其他节点的文档内容。实验结果显示,与Gnutella网络相比,小世界P2P网络具有更大的聚类系数、较小的特征路径长度和更高的文本检索查全率。针对基于DHT技术的结构化P2P网络在不支持复杂查询、负载不平衡和路由效率低等方面的问题,根据Kleinberg小世界模型设计了一个结构化P2P网络协议(SPPSW协议)。在SPPSW协议中,内容相近的节点被划分到相同的节点类中,在节点类的内部,节点可以根据相似程度选择邻居,网络由一些相互连接节点类构成。节点类可以动态地调整节点类的大小,能够自组织地分裂、合并,节点类之间存在一些长程连接,缩短了查询路由步数。实验结果显示,随着网络规模的扩大,在SPPSW协议网络中,搜索开销呈对数平方曲线增长,维护开销呈线性增长;选择一个合适的节点类内部节点的数量,可以使得整体的网络维护开销和搜索开销最小。