论文部分内容阅读
计算机网络极大地提高了人们获取信息的能力。随着计算机网络的迅速发展,网络信息增长的速度和人们获取信息的能力之间的矛盾越来越突出。传统搜索引擎己经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,它能够提供分类更细致精确、数据更全面深入的因特网搜索服务,并且对硬件要求低、结果更新也很及时。面向主题搜索引擎的核心组成部分是主题爬虫。主题爬虫是一种可以自动采集网页的程序,其目标是搜索网络中属于预定主题的那一部分网页子集。主题爬虫的爬行算法作为主题搜索引擎技术的关键,对其进行研究不但可以扩大所搜索主题的资源覆盖范围,而且还能有效地提高爬行性能和网络带宽的利用率。本文对主题爬虫采用的爬行算法进行了研究及讨论。论文首先介绍了主题搜索引擎的基本功能,接着分析了主题爬虫的基本结构及其工作原理,然后详细讨论了主题爬虫的搜索策略,并重点分析了主题爬虫在爬行过程中常用的最好优先算法及其存在的隧道问题。基于上述分析及讨论,论文给出了一种基于本体的主题爬虫最好优先爬行算法:在网页搜索过程中遇到一个与主题无关的网页时,并不马上抛弃该网页,而是利用基于本体方法建立的领域知识模型对该网页进行概念相关性判断,并指导主题爬虫更好地探索爬行方向并穿过隧道。最后我们利用该改进算法设计并实现了一个主题爬虫原型系统。实验表明该系统可以有效地帮助主题爬虫扩大搜索范围。