论文部分内容阅读
资源搜索是资源管理中不可或缺的关键技术,快速而且准确的返回满足一定约束条件的资源是对资源搜索的基本要求。随着网络技术的飞速发展以及网络应用的普及化,网络资源数据急速膨胀,并且语义信息丰富,这就使得资源搜索的研究呈现分布式化和语义化的趋势,基于P2P (peer-to-peer)网络的分布式资源语义搜索成为研究热点。然而,在分布式语义搜索的研究中,资源的高维特性是一个不能忽视的问题,高维特性容易造成资源搜索性能的下降,是研究的难点和重点。为高维资源向量构建低维语义索引是本论文实现高维资源的语义相似性搜索的基本思路。为此,本论文引入主成分分析算法,通过主成分分析算法对高维资源进行潜在语义主成分提取,将其投影至低维空间,以此来构建低维语义索引,在降低资源维度的同时保留资源间的语义相似性信息,使得该低维语义索引可以有效的支持分布式语义相似性搜索。由于基于传统主成分分析方法构建资源索引需要集中式网络结构,与P2P网络的分布式环境不适应,因此本文创造性的提出了主成分分析的四种分布式解决方案,即半分布式主成分分析方案、层次化主成分分析方案、全分布式主成分分析方案和聚类数据的主成分分析方案,从不同角度提高了主成分分析对P2P网络环境的适应性,并通过理论分析和仿真证明了四种解决方案的可行性和有效性,使得高维资源在分布式环境下可以有效的通过主成分分析构建低维语义索引。基于主成分分析构建的低维语义索引,本文在CAN (content addressable network,内容寻址网络)中实现了高维资源的分布式语义相似性搜索,并通过分析和仿真证明了该分布式语义搜索可以获得较高的查全率和查准率。