论文部分内容阅读
随着计算机网络技术的快速发展以及数据库、数据仓库等数据仓储技术在管理信息系统中日益广泛的应用,互联网上的信息迅猛增长,海量数据不断产生,Web逐渐成为人们进行资源获取与信息共享的重要平台。与此同时,互联网的架构也变得异乎寻常的庞大,其数据是实时变化的、分布式的、异构的,且缺乏有效统一的管理机制。因此,面对Internet上的海量数据,如何快速而准确地找到所需信息成为亟待解决的问题,同时也给搜索引擎带来了前所未有的机遇与挑战。Web数据挖掘正是在这样的需求背景下应运而生的,并逐渐地在实际中得到广泛的应用。本文首先对Web数据挖掘的相关背景及理论进行研究,分析并总结了其研究现状。在此基础上,重点分析了PageRank算法的基本原理、计算方法和优缺点。然后,针对其存在的主题漂移现象与偏重旧网页问题,结合向量空间模型,融入链接文本和其指向的网页内容之间的相似度信息,并将网页产生时间作为反馈因子,提出一种改进的基于链接文本相似和时间因子的ATSTF-PageRank算法。最后,制定切实可行的验证方案,设计并实现基于Nutch开源搜索引擎的实验系统,分别在SinaData数据集和TencentData数据集下对ATSTF-PageRank算法和原始的PageRank算法进行对比实验。实验结果表明,ATSTF-PageRank算法有效地抑制了主题漂移现象,增强了查询结果的准确性和时效性,提高了搜索引擎的查准率及用户满意度。