论文部分内容阅读
互联网的出现和迅速发展使信息检索的环境发生了重大变化。目前人们在互联网上搜索信息主要是通过Google,百度等通用搜索引擎。这类搜索引擎的功能已经十分强大,在一般情况下是可以满足用户需求的。然而当用户只想查询具体某专业、某行业或某种主题的相关信息时,这类搜索引擎就会显得有些力不从心了。这主要是因为链接拓扑学在鉴别网页重要性中被广泛利用。这种基于链接分析的排序算法并没有考虑到网页内容的相关度。
如今最被广泛应用的Pagerank算法就是这种基于链接分析的。我们将在传递页面的Pagerank值时考虑被链接页面内容的相关度论文首先介绍了搜索引擎的发展和现状,然后介绍了经典的检索模型原理及特点,接着详细的讲解了现如今大部分搜索引擎所运用的排序算法--Pagerank算法,现在大部分搜索引擎所运用的排序算法都是基于链接分析的。通过其原理介绍和运算原则指出了其在实际运用中的缺点。一些网站运用合理的链接改善,使得自身网站在排序时得到好的名次。针对这个问题,提出了融入了相关性的Pagerank排序算法的改进。
结合网页链接分析和网页内容相关性分析提出一种改进的:Pagerank算法EPR(Extended Pagerank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展Pagerank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统Page rank算法的排序结果。