基于协议驱动与事件驱动的综合聚焦爬虫研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:yayayaoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
AJAX(Asynchronous JavaScript and XML)技术可以动态地改变页面内容,是Web2.0应用中通常采用的技术。网页内容的延迟加载在提高用户界面交互程度的同时,也大幅度增加了网络爬虫程序的页面提取难度。因此,分析JavaScript代码并抓取页面中的异步传输内容成为当前网络爬虫技术的研究课题。聚焦网络爬虫根据目标描述有选择地访问从网页中分析出的URL,当用户需求的数据模型包含多个网页时,聚焦网络爬虫应能够获得这些网页并快速准确地构建数据模型。本文采用基于协议驱动与事件驱动的综合聚焦爬行算法和基于易扩展向量模型的目标描述,实现多层网页关联聚焦爬行。主要工作包括:1、提出了多层网页关联聚焦爬行模型,根据用户预设的网页层和最优爬行路径,通过在地址模型中增加关联语义的方法,达到快速准确获得数据模型的目的,实现多层网页关联聚焦爬行。2、提出了易扩展向量模型,用于聚焦爬虫的目标描述,不仅可以方便地实现增加和删除目标网站,而且能够快速地获得当前网页所在层的相关目标描述,有效地配合多层网页关联聚焦爬行算法的实现。3、提出了基于协议驱动与事件驱动的综合聚焦爬虫框架,详细设计了协议驱动模块、事件驱动模块、协同模块和通用模块的基本功能,重点研究了事件驱动模块获取异步传输内容时涉及的相关模型和定义。4、设计并实现了基于协议驱动与事件驱动的综合聚焦爬虫原型系统,针对新浪新闻评论数据,在综合聚焦爬虫框架中,使用易扩展向量模型实现二层网页关联聚焦爬行。
其他文献
本文简述了金刚石复合片(简称PDC)国内外发展概况,针对国内刀具用PDC的技术发展现状及存在的不足,在工业生产条件下利用正交试验方法进行了PDC合成工艺的优化及验证,借助扫描电
在当今的社会,质量的重要性已经越来越突显出来,优质的质量已成为当前服务型企业竞争能力的核心。特别是道路货运企业作为传统的服务型企业,其质量管理的水平决定了企业在社
2007年5月1日起实施的《商业特许经营管理条例》将特许经营定义为:商业特许经营是指拥有注册商标、企业标志、专利、专有技术等经营资源的企业,以合同形式将其拥有的经营资源
空间技术的快速发展及其在军事领域的广泛运用,使人类战场扩展到了外层空间。进入空间、控制空间和利用空间,已经成为了当今世界各军事大国竞相追求的目标。随着空间战场地位
存储控制器是计算机系统中的重要组成部分,它是CPU和存储器之间交换数据的桥梁和纽带。存储控制器决定了计算机系统所能支持的最大存储器容量、存储器Bank数、存储器类型、速
随着经济全球化进程的日益加快,并购整合已成为世界钢铁工业的发展趋势,国内钢铁企业的并购重组工作也在明显提速。通过并购重组,组建大的企业集团,并以更大规模、更低成本、
公路运输量调查统计是公路运输行业统计的主要部分,是反应交通运输行业特别是公路运输业发展状况的晴雨表,是对公路运输业进行科学管理的重要工具。公路运输量数据作为反映公
随着公路事业的迅速发展,桥梁改扩建任务也日益繁重。尽管国内外已对桥梁改扩建做了大量研究工作,且拥有很多较成功的实例,但是对一些关键技术尚未给出明确的指导意见。本文
目前我军装备管理信息系统存在着效率低下与静态管理的局限性问题,无法满足现代化作战对装备管理的要求。RFID技术具备对物资信息的自动采集与非接触识别功能,在装备管理信息
20世纪80年代以来,中国西部干旱、半干旱地区出现了日益严重的生态问题,这使得大批当地居民生活陷入到贫困之中。国家为了解决这些人的贫困问题,并恢复生态环境,开展了大规模