论文部分内容阅读
今天,人们寻找WWW上的信息,通常是在搜索引擎上执行一个查询。很多搜索引擎是基于关键词的,对于每一个查询,他们返回一个与查询内容匹配的Web网页的序列。对于宽话题查询,这样的搜索引擎经常得到一个较大的含有相关文档的集合,这些文档大多数是用户不感兴趣的。 然而,Web网页中存在着丰富的超链接结构信息,利用Web结构挖掘技术可以从中挖掘出有用的信息来改进搜索引擎技术。在这种情况下,Jon Kleinberg(在他的论文Authoritative sources in a hyperlinked environment)介绍了下面的概念: 1.权威网页——包含与查询匹配的网页中最具有权威性的网页的一个小的子集,该集合中的网页有很多入链接。 2.枢纽页——那些指向多个权威网页的网页。 Kleinberg认为权威和枢纽之间有一种相互加强的关系:好的枢纽指向好的权威,而好的权威被好的枢纽所指向,并根据这种关系设计了一种计算权威网页的Hub/authority算法。Brin和Page也提出了Page-rank算法,并将它应用于搜索引擎google。 但是,上述的两种算法还存在一定的不足,文章通过对这两个算法进行分析(研究他们的共性及不足)提出了一种更为一般的计算权威网页的算法;同时还定义了一部分概念用于对这些算法进行评价;最后将新提出的发现权威网页的算法和Hub/authority算法在人工拓扑上和局域网上进行了试验并对实验结果做了比较,得出了该算法在发现权威网页时比Hub/authority算法好。