论文部分内容阅读
随着网络信息时代的不断发展,广泛分布于因特网上的各类信息深刻地影响着人类生活的各个方面。如今,人们能够通过浏览网页的方式来查询其所需的各类目标信息。与此同时,由于因特网上的信息成千上万,信息量处于高速膨胀的状态,使得如何通过网页便捷地查询到目标信息这一问题更为凸现。在信息多元化发展的趋势之下,通用搜索引擎在很大程度上为人们在因特网上查找信息提供方便,但也暴露出种种不足。例如:查准率偏低、信息内容相对陈旧、信息分布范围不均衡等。因此,主题搜索引擎技术成为新的研究方向,它专门为特定领域、特定人群或特定需求提供具有一定价值的信息资源和检索服务。主题爬虫作为主题搜索引擎的信息抓取部分,负责对与用户感兴趣的某一主题相关的网页进行抓取。本文主要通过六个章节来分析主题爬虫的设计和实现。第一章主要阐述了搜索引擎的发展过程,网络爬虫在搜索引擎中的作用,简述了国内外的研究现状以及课题的研究意义。第二章是本文的理论基础:首先阐述了搜索引擎的基本原理,随后基于对比通用爬虫和主题爬虫找出其差异之处及其各自的特点之上,重点讨论了两种爬虫的体系结构和基本工作原理。第三章主要讨论了主题爬虫领域关键技术的研究和改进,包括文本特征项的提取方法、搜索策略以及网页消重技术的研究,并提出基于主题相关度的PageRank算法的改进。第四章主要探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词以及URL管理等模块。第五章描述了主题爬虫系统的界面与操作细节,以及利用该系统进行的实验过程,通过对实验数据的分析,证明了前述章节中各个理论的合理性与有效性。第六章对前面章节内容进行小结与归纳,并提出本文的创新点与局限性。实验结果证明:该主题爬虫在稳定运行的同时有着更好的收获率,极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新,此外用户查找时得到的冗余和无用信息也较少,具有更高的查准率。