基于浏览器的Web结构化数据抽取的研究及实现

被引量 : 0次 | 上传用户:edison2920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展为人们提供了大量的信息和资源,很多信息都是从数据库中查询得到然后使用一定的模板来展现在网页中,这类数据被称为结构化的数据或者记录。抽取结构化的数据可以为信息整合、垂直搜索等很多领域提供增值的服务,具有很大的用途,已经有大量的研究人员进行了研究,比如基于自然语言处理的方式、基于网页DOM树结构,但是这些都是基于单个网页抽取的,这种方式有很多缺陷:1、一个主题的完整信息可能需要从多个网页才能抽取到,这对抽取和后期的数据整合提出了挑战; 2、需要爬虫抓取页面供抽取器抽取,而网页的抓取对于深度网处理功能有限;3、网页的数据可能需要通过javascript生成或者AJAX异步请求得到,而传统的抽取方式对于javascript、AJAX等处理能力有限。本文提供了基于浏览器的信息抽取方式,提供了可视化的抽取规则生成工具和后台抽取运行时,可以解决上述问题。本文主要提出如下思路来解决抽取问题:1、提供可视化的交互式的抽取规则生成工具。通过很少的交互即可以生成适用于整个站点同一主题信息的抽取,并且提供了多种可选择的抽取方式,这样可以在不同的情形可以选择更合适的抽取方式。2、抽取信息的定位综合使用了基于DOM树的路径信息、可视化和不变文本信息。本文提出了使用EPath(Extraction Path)描述DOM树的路径信息和解析定位结点的算法。EPath对传统的XPath进行了改进,EPath不仅包含结点的位置信息、属性信息,还包含了可视化方面的信息。在解析的过程综合了这几种属性进行定位结点,对结点的match度进行打分,选择最佳的结点,而不是像XPath每次只能采用一种策略的速错方法。解决了同一模板生成数据中可选数据项导致结构差异的问题。3、基于浏览器的导航技术,表单提交、重复子结构识别和翻页装置的识别,解决了深度网抽取、javascript、AJAX处理的限制。4、定义复杂的抽取指令,相当于信息抽取领域的DSL(Domain Specific Language),可以解决复杂的抽取任务。基于以上思路,本文将他们应用于实用的系统中,并构建了可以作为Web信息获取的工具,为信息整合、垂直搜索提供数据源。
其他文献
基于对重庆三峡库区地理环境基础和经济社会发展概况的认识,通过实地调研并结合文献资料,采用PSR剖析了影响重庆三峡库区乡村聚落分布的自然力(自然环境基础)和非自然力(包括
本文是在田野考察的基础上,将蒙古族短调的传承这一音乐事项置入新疆博尔塔拉蒙古自治州这一特定空间进行考察与研究。以蒙古族短调在新疆博尔塔拉蒙古自治州的传承为主线,通
本文基于成分GARCH模型分解出粮食价格波动的低频成分,进一步应用面板VAR模型研究影响低频波动的决定因素。结果发现,籼稻、玉米、大豆和小麦价格的低频波动总体呈现逐渐下降
在当今我国纺织废水污染情况日趋严峻的状况下,印染废水作为纺织污染中的主要污染成分,研究和正确建立印染废水处理厂费用函数,是解决经济效益和环境效益之间矛盾的强有力的
上市商业银行就如同金融界中生命个体,虽然竞争激烈,但是在长期进化的过程中逐步学会了独特的竞争和生存本领。随着世界经济金融的国际一体化,外资银行纷纷进驻中国银行业市
简述了江苏省地表水自动监测站运行管理模式发展历程和现状,以及运行管理需求和存在的问题。分析了国内其他地区地表水自动监测站运行管理模式的优缺点。提出,下放部分站点管
固体氧化物燃料电池作为先进的能源转化器件,已受到了各国政府和研究机构的重视。标准化作为行业规范化发展的重要工作,已成为产业发展的重要保障和支撑。本文以固体氧化物燃
丹蒌是由瓜蒌皮、薤白、葛根、川芎、丹参、赤芍、泽泻、黄芪、骨碎补、郁金组成的纯植物药制剂,君药瓜蒌皮、薤白取自张仲景《金匮要略》治疗胸痹心痛之经典明方“瓜蒌薤白
水质监测是水文工作的重要组成部分,是一项重要的基础工作,在我国历年水利规划、水利工程建设管理、防汛抗旱、水资源管理与保护等工作中发挥了重大作用。水质监测的核心内容
风帽和布风板是循环流化床锅炉的关键部件,风帽的阻力特性及防漏渣特性会直接影响循环流化床锅炉的安全稳定运行。循环流化床锅炉向大型化发展的同时,布风板面积会相应的增大