论文部分内容阅读
近年来,随着web信息资源的快速增长,通用搜索引擎存在无法检索所有页面的问题,也不能满足人们日益增长的个性化服务需要,因此各类适应特定人群需要的主题搜索引擎应运而生。为保证主题搜索引擎返回信息的准确性,开展对承担主题相关信息采集任务的主题爬虫系统研究具有重要意义。主题爬虫的基本工作原理是按照预先确定的主题,分析超链接和所抓取的网页内容,获取下一个要爬行的URL,尽可能保证多爬行与主题相关的网页。在主题爬虫系统研究中,主要涉及主题基准模型、网页分析方法和网页搜索策略等方面的内容。主题基准模型是爬虫判别所抓取网页主题是否相关的依据,其研究重点是如何建立合适的主题基准模型以及主题基准模型和待判别网页的映射关系,以提高对所抓取网页的主题性判别;网页分析方法主要分析所抓取网页的内容和超链接,研究如何对网页内容进行正确提取,以获取网页所表示的主题,避免网页主题提取粒度不够影响对该网页的主题相关度判别;网页搜索策略主要解决待访问URL的次序问题,提高主题爬虫覆盖度。目前的研究主要集中在通过预测URL的主题相关来决定URL访问次序,但这样又容易使主题爬虫陷入局部寻优的状态。基于上述分析,本文主要从主题基准模型、网页分析方法和网页搜索策略三方面展开研究,设计和构建相应的主题爬虫系统框架,并以信用主题为应用,实现主题爬虫原型系统,并对相应的实验结果进行分析比较。本文主要研究工作包括以下几个方面:1、对主题爬虫系统的结构开展研究,从提高主题爬虫抓取质量的角度出发,将主题基准模型、网页分析方法和网页搜索策略三个重要组成部分进行分析整合,设计了主题爬虫系统的框架。2、从主题基准模型建立方法和待判别网页主题抽取上展开研究,通过统一主题基准模型和待判别网页的主题关键词的权重设置,来提高爬虫对网页的主题性判别。3、针对常用的基于网页结构内容块提取方法中提取正文粒度不够细问题,本文采用基于TagWindow标签窗口进行网页正文提取,以适应于正文篇幅长和正文中链接比较少的网页类型。4、为提高主题相关资源发现率,针对现有主题爬虫存在无法访问链接不可达资源,无法跨越主题团之间的主题不相关链接等问题,本文对自适应遗传算法网页搜索策略展开研究,以缓和上述隧道问题。5、以信用主题为应用实现主题爬虫原型系统,并对相应的实验结果进行分析比较。