论文部分内容阅读
随着全球信息化的进程逐渐加快,网络信息量的爆炸式增长,人们查找信息越来越难。
Web 搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的大型通用搜索引擎无法根据用户所指定的主题进行针对性的搜索,主题搜索引擎应运而生。主题搜索引擎主要针对某一特定领域、某一特定主题或某一特定人群,提供内容集中而深入的信息与服务。主题网络爬虫作为主题搜索引擎的重要组成部分,它的好坏直接关系到所搜索到资源的质量,因此如何设计一个高质量的主题网络爬虫就成为了主题搜索引擎研究的一个重要课题。
通用搜索引擎设计的目的是在网络上搜索尽可能多的高质量网页,然而Web 信息容量的巨大使得网络爬虫不可能提取所有的Web页面,即使能够全部提取,也没有足够大的空间来存放。通用网络爬虫的信息采集方式是盲目的,通常使用宽度优先搜索,深度优先搜索和有限深度的宽度搜索三种策略。主题搜索引擎与通用搜索引擎不同,它的设计目标是尽可能多的搜索与主题相关的网页,尽可能少的搜索与主题无关的内容,提高采集主题资源的效率。主题网络爬虫设计的关键是如何将待爬行的URL按照某种策略进行排序,使得与主题相关的、质量高的URL优先爬行,爬行的过程逐渐向主题领域聚焦。
论文首先分析了主题搜索引擎与通用搜索引擎体系结构的异同,主题搜索引擎的信息采集策略,即主题网络爬虫的实现方式。目前比较有代表性的主题搜索策略如:基于启发式搜索算法和基于文本分类的搜索算法。论文通过分析各种搜索算法的优缺点,进行整合和改进,设计出一个基于启发式搜索策略的主题网络爬虫。在主题表示中利用向量空间模型提取主题关键词的算法,并且根据反比文档频率计算出关键词的权重。在预测链接价值的算法中,采用启发式搜索算法,即先通过在线获得的领域知识评价待访问链接的价值,借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜索,找到到达目标节点的最佳路径,删除不好的节点,保留那些好的节点。
论文设计了一个基于启发式搜索策略的主题网络爬虫,对其执行流程给出了精确的算法描述,提出了若干关键算法的解决方案。详细阐述了链接主题相关度预测算法和网页主题相关度分析算法的实现。最后通过实验,证明了论文设计的主题网络爬虫具有较高的搜索效率。