论文部分内容阅读
基于分布式散列表(DHT)的技术是目前P2P网络的主要实现方式之一。DHT可以提供信息的精确匹配查询,但是无法支持内容、语义等复杂查询,从而给用户的信息检索带来了极大的不便。如何在现有的OpenDHT网络上,解决精确匹配查询和内容语义检索之间的矛盾,成为了现阶段网络结构以及内容语义搜索研究的一项新兴课题。本文设计并实现了构建于DHT网络之上的语义资源搜索系统。
本系统能够完成将相似文档发布到语义相近的节点,同时完成对相似文档的搜索。我们希望借此对基于对等网络的搜索进行研究分析以及改进,改善用户的搜索体验。
本文研究重点包括:
一、研究了当前主流的全分布式结构化对等网络技术,着重分析了DHT网络在精确匹配查询和内容语义检索之间的矛盾,进而提出在DHT对等网上建立基于语义的信息搜索系统。
二、提出基于文档关联度的语义搜索算法。它是应用在DHT网络内容搜索的一个创新算法。首先它不是对关键字的搜索,而是针对相似文档的搜索;其次,它假设文档的意思是由某个或某些词的出现与否及它们出现的频率决定的,使用统计学的方法,根据文档中单词之间的关系,达到概念匹配的目的。
三、为了配合我们的语义搜索算法,将DHT改造成语义对等网。研究了如何对节点标识符空间进行了语义划分,改变文档信息与DHT节点标识符的映射关系,实现了语义节点的聚合。