论文部分内容阅读
P2P系统提供了一个优秀的资源共享平台,当平台上的资源越来越多,就需要信息检索技术的介入,从而有效的定位到用户感兴趣的文档。然而P2P下应用信息检索技术面临两个问题:同义词和一词多义问题;P2P环境下无法获得全局信息。前者是由信息检索引起的,后者则是P2P系统架构造成的。
本文提供了一种新颖的、基于隐含语义索引的自动查询扩展方案:从不同的节点的文档集中获得用户查询的上下文信息来优化用户查询。通过对不同上下文信息的比较,帮助用户从最符合用户潜在偏好的节点上获取相关文档。我们称之为语义双重查询扩展(SDQE)。由于LSI提供了隐含语义信息,因此SDQE是一种基于语义的查询扩展方法。在缺少全局统计信息的环境下,SDQE方法通过充分利用本地信息,补偿了一部分缺失的全局信息,从而大大提高了P2P系统的检索性能,并接近于集中式检索方法。
实验数据表明,SDQE是一个行之有效的方法,而且它对自动查询扩展方法中的痼疾——查询漂移问题,也起到了很好的抑制作用。另外由于SDQE是一个多参数的方法,每个参数的取值也是实验的重要组成,本文对每个参数进行了细致的分析,并给出经验参数。