论文部分内容阅读
随着计算机技术、通讯技术、网络技术的飞速发展和Internet应用的日益普及,电子文档的数量逐日剧增,使得电子文档成为一个巨大的信息库。万维网信息的爆炸性增长也使Web成为巨大的信息库。面对这么巨大的信息库,常规的信息检索技术由于受到硬件和体系结构的限制,对信息处理的数量和速度都不能满足用户的要求。为了解决这个问题,信息检索里一个新的研究课题被提出,基于对等网的分布式信息检索。他的基本思想就是:将信息发布在对等网络上,以支持更多地信息发布,也支持更多地用户并行的查询。他利用对等网组织大规模的计算资源对信息进行处理,提高系统处理的数据量和加快处理的时间。由于这是一个很新的研究方向,所以面临着许多的挑战。
本文重点研究了,在对等网环境下有效的对传统的文档构建索引并进行发布和查询;在对等网环境下进行有效的网页协同下载;在对等网环境下有效的构建 Web信息索引并进行发布和查询。针对这几个研究问题本文提出了自己的解决方案。本文的创新性研究工作主要有以下几个方面:
1.本文提出的SPIRS是一个基于层次结构的信息检索系统。在SPIRS中,具有信息检索功能的节点组成一个核心网络,这个网络由稳定的计算力较强的节点构成,这些节点具备信息检索功能,包括将查询和文档转化成向量,而存储节点作为这些核心节点的子节点主要功能是存储,并且作简单的向量相似度计算。这样对于一般的叶子节点只需要具备存储和简单计算的功能,这对于开放的Internet来说是一个较好的解决方案。SPIRS采用语义来发布和查询文档,可以获得好的查询精度。SPIRS采用聚类与角度向量解决索引分布的热点问题。SPIRS采用本文提出的一个新的聚类算法一最小树信息瓶颈法(MlB)对文本进行聚类。SPIRS对新的查询和文档采用本文提出的分类算法PDHCS来进行分类。从实验的结果来看,SPIRS有很好的精度,可扩展性,较少的查询路径长度和好的负载均衡。
2.本文提出的MIB算法先根据文档与单词的联合分布概率对单词进行聚类,聚类的单词将最大限度的保留原文档的信息并且减少噪音的影响,然后以聚类的单词为基础充分挖掘各个文本的结构相似性。该相似结构被用于最小树算法,通过两者的结合来对文本进行高精度的聚类。从实验结果可以看出MIB比AIB【NSNT 1999】,IDC【REOS 2002】和K-means有更好的聚类效果。
3.本文提出了基于对等网的文本分类算法PDHCS,该算法充分考虑DAGSVM的并行结构和特征将其与对等网相结合。由于该算法采用了知识共享技术,所以有较低的通信开销,这使得该算法能够很好的应用于Internet上。使用该算法我们可以更好的收集标定的样本,更好的利用闲散的计算资源来完成分类器的训练,更好的将分类器发布进行分布式计算。从实验结果看,PDHCS有好的负载均衡性,可扩展性和精度。
4.本文提出了一个基于对等网的Crawler系统Plgloo。在Plgloo中,我们采用层次结构的CAN网络。将节点分为信息服务节点和Crawler节点,将URL与对等网进行很好的映射,有效地将大规模的计算资源进行整合,调度获得强大的计算能力。Plgloo很好的考虑节点的负载均衡问题,又采用了层次结构的对等网络,所以有很好的可扩展性和下载速率。
5.本文提出一个基于对等网的Web信息索引系统PDWIN。PDWIN利用层次结构的对等网构建一个分布式索引系统,提供分布式查询。PDWIN采用我们提出的PDAP算法来进行PageRank的分布式计算。PDAP利用Plgloo提供的平台来分布的计算。PageRank,可以更大规模更快的计算PageRank,缩短索引更新的周期。由于PDWIN整合了大量的计算资源,又进行了合理的调度,使得系统有很好的数据存储量,可以支持更多的用户并行查询,有很强的计算能力,加快索引的更新速度。由于系统采用全局索引,所以系统还保持了较高的精度。从实验结果看出系统有很好的可扩展性和精度。Plgloo,PDAP和PDWIN都采用了对等网,并且三者很好的融合在一个平台内,完成大规模的网页下载,快速的索引建立和查询。