论文部分内容阅读
随着互联网技术日新月异的发展,Web已经成为一个巨大的、分布广泛的信息源。为了有效地利用这些信息,需要从多个不同的信息源中将Web页面爬取下来,经过信息抽取、信息融合等环节,存储到本地数据库中,为市场情报分析等应用提供支持,这个过程称为数据集成。然而,Web数据具有规模宏大、异构性、自治性、动态变化等特点,这使得Web数据自动化集成成为一项极具挑战性的研究课题。Web数据爬取是Web数据集成的关键问题之一,是数据集成的基础。由于Web数据量的迅猛增长,通过单个普通爬虫在合理的时间内获取足够多的有效信息非常困难,因此,基于主题的增量网页并行爬取引起了国内外研究者的广泛关注,它不仅可以同时爬取多个相关主题的页面,而且增量爬取保证了页面的时新性,并行的爬取架构保证了页面的获取时间。本文针对其中存在的关键问题展开研究,主要工作与贡献概括如下:1.针对Deep Web增量获取过程中查询词的提交问题,本文提出了基于增量采新率模型的Deep Web增量获取方法利用之前进行过的Deep web的多次全部爬取返回的结果记录构建增量记录集合,基于这些增量记录,采用机器学习方法获得了增量采新率模型,它可以自动地产生待提交的适当查询词,使获取的增量记录数量尽可能多。其中,该方法中引入集合覆盖模型表示Web数据库的不同版本,有效的节省了存储空间;同时,在考虑增量数据记录时,摒弃了之前只考虑新插入数据记录的做法,同时将删除的旧有数据记录和更新的数据记录都考虑在内。2.针对Surface Web增量获取过程中页面变化频率预测问题,本文提出了基于更新频率判断模型的Surface Web增量获取方法依据Web页面的历史变化频率构建图模型,使得变化频率相似的页面相邻,采用图的团覆盖理论将页面的集合分组,通过“中心页面”计算各组页面的平均变化频率并排序,如此获得更新频率判断模型。基于该模型的Surface Web增量获取方法可以有效地预测Web页面的变化频率,从而为再爬频率判断提供依据。3.针对并行爬取过程中URL分配调度问题,本文提出了基于多目标决策理论的URL分配方法本文综合考虑多方面因素,如CPU,向关性,网络带宽等,提出了一个基于多目标决策理论的URL分配模型,该方法首先对各个评估因素进行量化,然后基于层次分析法求解各评估因素的权重以及各个爬虫对于各因素的评估值,最后对各个爬虫的评估值进行加权求和并排序,为每个给定的URL选定最优的爬虫。这样有效避免了重复下载问题和负载不均衡问题,同时提高了下载页面的主题相关性。4.针对网页爬取过程中各爬虫之间向互通信问题,本文提出了基于二级控制器的并行爬取架构本文提出的并行架构中增加了二级控制器,它可以控制属于同一个主题的多个爬虫并负责它们之间的相互通信,这样,不仅可以降低爬虫爬取页面的冗余度,保证了网页的质量,同时减少了网络带宽的耗费。