分布式聚焦爬虫系统设计与自动模板生成研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xuruiqi8627361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和网络数据量的迅速膨胀,网络信息抽取和整合变得尤为重要。当前,网络上存在大量的信息,这些信息以结构化的形式存储在网站的后台数据库中,通过模板包装成网页向用户展示。为了从这些网站抽取信息,最终获取并整合这些网站的后台数据,本文设计并实现了一个分布式聚焦爬虫系统,并针对实际应用中的主要问题进行改进,包括以下两个部分:   针对爬虫频繁访问网站导致的网站拒绝访问,进而影响爬虫正常工作的问题,本文提出了为系统建立用户浏览模型控制爬取压力的方法。该方法改变了传统爬虫顺序爬取网页链接的方式,能够模拟用户正常浏览网页的方式爬取网站,避免由于爬取速度过快对网站造成过大的访问压力,使得系统爬取效率获得显著提升。   针对系统需要手工标注模板的缺陷,且无法适应网站模板经常变更的问题,本文提出了基于领域背景建模的自动模板生成方法。该方法利用自然语言处理技术,提取信息项的词性和命名实体信息,并结合位置信息等建立统计模型,实现模板的自动学习和生成。一方面,该方法避免了传统方法偏重于考虑网页之间的结构相似性,而忽略了对待抽取信息内容的分析的缺点;另一方面,该方法能够在抽取信息的同时为数据标记统一的标签,实现了不同网站间的信息整合。   本文最终实现了一个完整的分布式聚焦爬虫系统,并通过引入用户浏览模型和自动模板生成技术,使得系统在整体性能上得到了显著提升,并提高了系统的应用价值。最后,本文对聚焦爬虫的发展方向进行了讨论和展望。
其他文献
随着网络资源的快速膨胀,在基于关键词查询的信息检索系统中,同义词多义词、查询歧义现象越来越多,检索词的选择对查询效果的影响越来越高,而广大用户往往难以选择正确的检索
为了利用信息技术改造提升传统农业,提高传统农业的生产效率,降低生产成本,实现土壤水分含量数据采集与监测的自动化,为科研人员提供一个高效节能的土壤水分数据临测平台,本论文将
目前,经济型数控系统在我国市场中占据主要份额。传统的基于单片机的经济型数控系统具有价格便宜,易于操作,可靠性较高等特点,但是普遍功能单一、运算能力不强、控制精度较低,已不
随着物联网的逐步推进,RFID(Radio Frequency Identification)技术也将得到进一步发展。RFID技术主要应用在物流、门禁、追踪、身份识别等各个方面。目前在RFID技术方面,国内与
回答集程序设计(Answer Set Programming,ASP)是基于回答集语义的逻辑程序设计,它是一种新的知识表示和推理的工具,是近几十年来逻辑程序的研究热点,然而,根据回答集程序设计
近年来随着各种定位系统的广泛应用,以及其在工业、民用和军事领域的应用需求,声源探测和定位系统的研究已经成为新的研究热点。本文在总结前人的工作基础之上,主要通过对空
随着P2P网络的快速发展,越来越多的人在P2P网络上获取或者共享信息资源。资源共享已成为P2P网络最主要的应用之一,资源搜索机制的有效性是影响其应用能力的关键。当前如何设
交通分析是道路交通研究和管理的核心内容。在发现道路交通参数变化规律的基础上,对各个交通参数进行准确的预测,能够为路网规划、路径诱导等道路交通应用提供重要的决策支持
随着环境感知与地图生成技术的飞速发展,尤其是SLAM(SimultaneousLocalization And Mapping,同时定位与地图生成)取得了巨大的研究突破,基于移动平台多模态传感器的感知方法
电子政务系统发展突飞猛进,多应用性、分布性、多地域性成为大势所趋,电子政务在新环境下的安全问题成为研究热点,电子政务系统安全服务平台可以通过在安全基础设施与电子政