基于语义相似度的P2P文件查询的研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:herewe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P网络是近年来的研究热点,它具有自组织性好、容错能力强、可扩展性好等优点,是未来Internet的关键技术之一。随着P2P网络应用的日益盛行,分布式搜索技术已经成为P2P技术研究领域中的热点,如何从一个大规模的P2P系统中快速准确地找到满足给定条件的文档数据是首先要解决的关键技术。但是当前许多研究都只是单纯地考虑节点或文档间的距离因素而忽略了语义对查询结果的影响,基于分布式哈希表的方法只支持精确查询。综合目前方法的特点,其不足主要体现在如下两个方面:(1)对文档的搜索返回不相关的内容从而影响了搜索准确率;(2)由于索引不当,相关文档搜索不到,从而影响搜索成功率。针对目前在P2P领域关于语义研究较少的情况,本文将语义相似度引入到P2P网络的文件查询中来,通过语义相似度的比较来决定查询结果的返回。区别于当前大多使用的分布式搜索方案,本文采用有结构索引与无结构路由相结合的方式。为了计算语义相似度,本文首先对文档的表示方法进行了改进,使用简易概念列表来表示文档,简易概念列表通过给定文档类别和文档关键词以及其词频对文档进行索引。相似度的计算通过WordNet来完成。在本文的搜索模型中,借鉴了社会网(social network)的思想,即通过社会关系来查找自己想要的信息。这种方法不同于一般的简单维护其他节点信息的方法,节点通过建立本地资源索引表LRIT和邻居资源索引表NRIT来对自己的本地资源以及网络中临近节点的资源进行索引。另外,为了减少网络消息冗余,建立查询历史机制,记录节点使用过的查询结果,方便以后查询使用。最后本文对基于语义相似度的搜索方案进行了分析和模拟实验,实验结果表明本文所提方案确实提高了搜索效率,缩短了搜索路径,并且减少了系统中的消息流量。
其他文献
随着计算机网络和数据库技术的迅速发展,人们对数据库的要求越来越高。传统的集中式数据库一般都被放置在服务器上,这样比较方便管理,但随着网络技术的迅猛发展,数据分布存储
随着Internet技术的发展,安全协议在电子商务和电子政务中的应用越来越多。与此相应的就是人们对协议的安全性更加关注,随之涌现出各种安全协议的形式化分析方法。本文简要介
延迟容忍网络(Delay Tolerant Networks, DTNs)是一种新型Ad-hoc网络。在这种网络中,由于节点移动过于频繁,以及节点密度过于稀疏,导致整个网络中不存在端到端完整而稳定的通
随着科技技术的飞速发展,互联网的广泛使用,单一应用系统不再能够满足政府和企业客户的多样性需求,因此,多个具有独立用户身份认证模块但又彼此互相联系的系统和网站涌现到用
面向方面的程序设计(Aspect-Oriented Programming,AOP)是一种全新的程序设计方法,其核心旨在克服面向对象程序设计中抽象建模的局限性,在系统设计时将分散在各个模块中的横
路由协议是移动自组网(MANET,Mobile Ad hoc Network)的重要组成部分。基于位置的路由协议因无状态性而具备良好的可扩展性,能适用于大规模的网络。我们将基于位置的路由思想
随着互联网的发展,文本过滤技术成为互联网内容处理的关键技术,对海量信息处理具有很重要的意义。传统的文本过滤方法,如基于统计的向量空间模型方法和概率模型方法,速度快,可实现
随着网络教育的蓬勃发展,与之相适应的资源建设也日益受到人们的重视。众所周知,网络教育有三大基础:硬件、软件和网络教育资源。Internet技术正在向宽带、高速、多媒体化方
地理信息系统(GIS)是用于获取、储存、查询、分析和显示空间地理数据的计算机信息系统。WebGIS(网络地理信息系统)是在Internet或Intranet网络环境下采用WWW协议的一种地理信
随着企业信息量的急剧增加,企业在管理其资源时希望提高各个环节的响应速度、改善企业的管理模式,以提高生产效率。而工作流技术的产生很好的满足了这一需求,它能够将企业的