基于对等网的分布式信息检索研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lovepengchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、通讯技术、网络技术的飞速发展和Internet应用的日益普及,电子文档的数量逐日剧增,使得电子文档成为一个巨大的信息库。万维网信息的爆炸性增长也使Web成为巨大的信息库。面对这么巨大的信息库,常规的信息检索技术由于受到硬件和体系结构的限制,对信息处理的数量和速度都不能满足用户的要求。为了解决这个问题,信息检索里一个新的研究课题被提出,基于对等网的分布式信息检索。他的基本思想就是:将信息发布在对等网络上,以支持更多地信息发布,也支持更多地用户并行的查询。他利用对等网组织大规模的计算资源对信息进行处理,提高系统处理的数据量和加快处理的时间。由于这是一个很新的研究方向,所以面临着许多的挑战。 本文重点研究了,在对等网环境下有效的对传统的文档构建索引并进行发布和查询;在对等网环境下进行有效的网页协同下载;在对等网环境下有效的构建 Web信息索引并进行发布和查询。针对这几个研究问题本文提出了自己的解决方案。本文的创新性研究工作主要有以下几个方面: 1.本文提出的SPIRS是一个基于层次结构的信息检索系统。在SPIRS中,具有信息检索功能的节点组成一个核心网络,这个网络由稳定的计算力较强的节点构成,这些节点具备信息检索功能,包括将查询和文档转化成向量,而存储节点作为这些核心节点的子节点主要功能是存储,并且作简单的向量相似度计算。这样对于一般的叶子节点只需要具备存储和简单计算的功能,这对于开放的Internet来说是一个较好的解决方案。SPIRS采用语义来发布和查询文档,可以获得好的查询精度。SPIRS采用聚类与角度向量解决索引分布的热点问题。SPIRS采用本文提出的一个新的聚类算法一最小树信息瓶颈法(MlB)对文本进行聚类。SPIRS对新的查询和文档采用本文提出的分类算法PDHCS来进行分类。从实验的结果来看,SPIRS有很好的精度,可扩展性,较少的查询路径长度和好的负载均衡。 2.本文提出的MIB算法先根据文档与单词的联合分布概率对单词进行聚类,聚类的单词将最大限度的保留原文档的信息并且减少噪音的影响,然后以聚类的单词为基础充分挖掘各个文本的结构相似性。该相似结构被用于最小树算法,通过两者的结合来对文本进行高精度的聚类。从实验结果可以看出MIB比AIB【NSNT 1999】,IDC【REOS 2002】和K-means有更好的聚类效果。 3.本文提出了基于对等网的文本分类算法PDHCS,该算法充分考虑DAGSVM的并行结构和特征将其与对等网相结合。由于该算法采用了知识共享技术,所以有较低的通信开销,这使得该算法能够很好的应用于Internet上。使用该算法我们可以更好的收集标定的样本,更好的利用闲散的计算资源来完成分类器的训练,更好的将分类器发布进行分布式计算。从实验结果看,PDHCS有好的负载均衡性,可扩展性和精度。 4.本文提出了一个基于对等网的Crawler系统Plgloo。在Plgloo中,我们采用层次结构的CAN网络。将节点分为信息服务节点和Crawler节点,将URL与对等网进行很好的映射,有效地将大规模的计算资源进行整合,调度获得强大的计算能力。Plgloo很好的考虑节点的负载均衡问题,又采用了层次结构的对等网络,所以有很好的可扩展性和下载速率。 5.本文提出一个基于对等网的Web信息索引系统PDWIN。PDWIN利用层次结构的对等网构建一个分布式索引系统,提供分布式查询。PDWIN采用我们提出的PDAP算法来进行PageRank的分布式计算。PDAP利用Plgloo提供的平台来分布的计算。PageRank,可以更大规模更快的计算PageRank,缩短索引更新的周期。由于PDWIN整合了大量的计算资源,又进行了合理的调度,使得系统有很好的数据存储量,可以支持更多的用户并行查询,有很强的计算能力,加快索引的更新速度。由于系统采用全局索引,所以系统还保持了较高的精度。从实验结果看出系统有很好的可扩展性和精度。Plgloo,PDAP和PDWIN都采用了对等网,并且三者很好的融合在一个平台内,完成大规模的网页下载,快速的索引建立和查询。
其他文献
无线局域网是20世纪90年代计算机网络和无线通信技术相结合的产物,它使用无线信道来接入网络,为通信的移动化、个人化和多媒体应用提供了潜在的手段,并成为宽带无线接入的有
随着当今网络规模和性能迅速增长,Internet主于网络流量的指数性增长,新业务接连出现,这就要求网络设备具有线速和智能的处理能力。网络处理器(NP)便是一种新兴、有效的统一解决
互联网中的网页及其超链接可建模为一个庞大的有向图,称为Web Graph。Web Graph的分析研究可应用于网页排名、检测网络垃圾信息、发现社区和镜像站点等。然而,这项研究受阻于需
随着计算资源规模的扩大以及应用需求的日趋复杂,虚拟资源的整合与调度还面临着诸多挑战。首先,缺乏一整套的自动化虚拟资源整合方案来进行服务的透明部署。其次,传统调度方法在
为了适应国际机器人足球联盟(FIRA)新增比赛项目——MIROSOT大型组对视觉系统的要求,本文对其视觉目标识别相关技术进行研究,为该类型机器人足球比赛视觉系统的研究及目标识
随着计算机应用领域的扩大,软件质量以及软件质量管理日益成为人们关注的焦点。软件质量特性,反映了软件的本质。讨论一个软件的质量问题最终要归结到定义软件的质量特性。为
随着三维扫描技术的发展,三维网格模型成为几何造型和计算机图形学领域中最通用的表示物体形状的方法,网格模型的处理成为热点研究内容。 网格参数化是网格处理中最基本的
命名数据网络(Named Data Network,NDN)是一种新型的以内容为中心的网络体系结构。在NDN网络中路由节点转发数据内容依靠的是报文中携带的数据内容的名字,同时每一个路由节点都
空间数据库是GIS(Geographic Information System地理信息系统)、CAD/CAM数据库、VLSI等系统的核心支撑软件。空间数据库能够提供高效的空间对象存储管理能力,良好的空间数据
随着移动通信市场的发展和变化,市场现在已经不满足于2G的窄带业务,3G宽带市场潜力非常大。在这样一个转型的时机,国内外厂商都面临着前所未有的严峻挑战和快速发展的机遇。