基于主题的增量网页并行爬取问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:wolfseason
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术日新月异的发展,Web已经成为一个巨大的、分布广泛的信息源。为了有效地利用这些信息,需要从多个不同的信息源中将Web页面爬取下来,经过信息抽取、信息融合等环节,存储到本地数据库中,为市场情报分析等应用提供支持,这个过程称为数据集成。然而,Web数据具有规模宏大、异构性、自治性、动态变化等特点,这使得Web数据自动化集成成为一项极具挑战性的研究课题。Web数据爬取是Web数据集成的关键问题之一,是数据集成的基础。由于Web数据量的迅猛增长,通过单个普通爬虫在合理的时间内获取足够多的有效信息非常困难,因此,基于主题的增量网页并行爬取引起了国内外研究者的广泛关注,它不仅可以同时爬取多个相关主题的页面,而且增量爬取保证了页面的时新性,并行的爬取架构保证了页面的获取时间。本文针对其中存在的关键问题展开研究,主要工作与贡献概括如下:1.针对Deep Web增量获取过程中查询词的提交问题,本文提出了基于增量采新率模型的Deep Web增量获取方法利用之前进行过的Deep web的多次全部爬取返回的结果记录构建增量记录集合,基于这些增量记录,采用机器学习方法获得了增量采新率模型,它可以自动地产生待提交的适当查询词,使获取的增量记录数量尽可能多。其中,该方法中引入集合覆盖模型表示Web数据库的不同版本,有效的节省了存储空间;同时,在考虑增量数据记录时,摒弃了之前只考虑新插入数据记录的做法,同时将删除的旧有数据记录和更新的数据记录都考虑在内。2.针对Surface Web增量获取过程中页面变化频率预测问题,本文提出了基于更新频率判断模型的Surface Web增量获取方法依据Web页面的历史变化频率构建图模型,使得变化频率相似的页面相邻,采用图的团覆盖理论将页面的集合分组,通过“中心页面”计算各组页面的平均变化频率并排序,如此获得更新频率判断模型。基于该模型的Surface Web增量获取方法可以有效地预测Web页面的变化频率,从而为再爬频率判断提供依据。3.针对并行爬取过程中URL分配调度问题,本文提出了基于多目标决策理论的URL分配方法本文综合考虑多方面因素,如CPU,向关性,网络带宽等,提出了一个基于多目标决策理论的URL分配模型,该方法首先对各个评估因素进行量化,然后基于层次分析法求解各评估因素的权重以及各个爬虫对于各因素的评估值,最后对各个爬虫的评估值进行加权求和并排序,为每个给定的URL选定最优的爬虫。这样有效避免了重复下载问题和负载不均衡问题,同时提高了下载页面的主题相关性。4.针对网页爬取过程中各爬虫之间向互通信问题,本文提出了基于二级控制器的并行爬取架构本文提出的并行架构中增加了二级控制器,它可以控制属于同一个主题的多个爬虫并负责它们之间的相互通信,这样,不仅可以降低爬虫爬取页面的冗余度,保证了网页的质量,同时减少了网络带宽的耗费。
其他文献
创新是引领发展的第一动力。抓创新就是抓发展,谋创新就是谋未来。党的十八大以来,习近平总书记把创新摆在国家发展全局的核心位置,高度重视科技创新,围绕实施创新驱动发展战略、
近10多年,伴随着国家找矿的需求,化探新方法正在大力应用研究与推广,目前,有关科研单位正着力研究与开发应用的主要有如下几项:
目的探讨3种细胞因子在结核、肺癌患者血清中浓度变化的意义。方法用ELISA法同步分别检测36例初治活动性结核、24例肺癌及12例健康对照组血清干扰素(IFN)-γ、白细胞介素(IL)
2008年7月29日,一个俄罗斯科研团队在俄罗斯伊尔库次克地区乘坐两艘微型潜艇,于周二成功下潜到贝加尔湖的湖底,此次成功下潜,创造了淡水下潜深度新的世界纪录。
本文对网络环境下我国涉外医学信息咨询工作与传统服务方式进行了比较,突出网络环境的优势。回顾了改革开放20多年来我国医药卫生事业的对外交流,探讨了涉外医学信息咨询工作的
<正> 江苏省运河航运公司是江苏省水运骨干企业,拥有机动船70艘,各类货驳360余艘,总载重吨为7万吨,组成45个货运船队,常年航行大江南北七省一市,每年可完成货运量230万吨,货
自治区科技进步二等奖(两项)成果名称:利用新疆宝安红柱石研制高品质蜂窝陶瓷制品
德国西南历史名镇斯陶芬(Staufen)近期地面正在以每周1mm的速度下沉,并导致一些历史建筑物的墙体出现裂缝。尽管下沉的原因目前仍在调查之中,但大家都认为这都是去年秋天在该镇公
研究人员发现,一些微生物细菌类能从几乎没有经济价值的矿石中回收很贫的贵重金属。矿物被细菌吞人体内,并在新陈代谢过程中分解成金属矿或浓缩的硫,这个过程叫生物过滤。