论文部分内容阅读
伴随互联网爆炸性的发展,网上信息浩如烟海,普通网络用户想找到所需的资料难于大海捞针,所以迫切需要一种优异的搜索服务,将网上繁杂的内容整理成为可方便获取的信息。搜索引擎技术为解决这一难题做出了突出贡献,搜索引擎提供的结果集中页面质量的好坏以及高质量的页面能否在结果集中有较好的排名,对搜索引擎用户来说具有重要意义,同时也是衡量搜索引擎技术优劣的关键指标,所以对页面进行重要性评估并按重要性排序是搜索引擎要解决的技术核心。
本文首先介绍了搜索引擎的组成、原理、工作流程以及发展现状,分析了其存在的优缺点;然后对Web挖掘的三个方面:内容挖掘、结构挖掘和使用挖掘做了简要分析。
其次,本文在介绍PageRank与HITS两种基于链接结构的搜索引擎排序算法的基础上,就链接和被链接的数量、对象以及Web自身的链接结构模式对这两种算法进行了对比分析,并重点研究了PageRank算法的思想和计算方法。
最后,通过深入分析PageRank算法后,本文提出了改进的SP-PageRank算法,并对算法所用到的内外存交换原理做了比较深入的研究,利用Java语言实现了基于数据预取的PageRank与SP-PageRank计算平台。在搜狗实验室提供的3个链接数据集上进行了实验,实验结果表明,基于数据预取的PageRank与SP-PageRank算法比未使用数据预取的时候在计算效率上有较大提高。