论文部分内容阅读
互联网技术的飞速发展为人们提供了大量的信息和资源,很多信息都是从数据库中查询得到然后使用一定的模板来展现在网页中,这类数据被称为结构化的数据或者记录。抽取结构化的数据可以为信息整合、垂直搜索等很多领域提供增值的服务,具有很大的用途,已经有大量的研究人员进行了研究,比如基于自然语言处理的方式、基于网页DOM树结构,但是这些都是基于单个网页抽取的,这种方式有很多缺陷:1、一个主题的完整信息可能需要从多个网页才能抽取到,这对抽取和后期的数据整合提出了挑战; 2、需要爬虫抓取页面供抽取器抽取,而网页的抓取对于深度网处理功能有限;3、网页的数据可能需要通过javascript生成或者AJAX异步请求得到,而传统的抽取方式对于javascript、AJAX等处理能力有限。本文提供了基于浏览器的信息抽取方式,提供了可视化的抽取规则生成工具和后台抽取运行时,可以解决上述问题。本文主要提出如下思路来解决抽取问题:1、提供可视化的交互式的抽取规则生成工具。通过很少的交互即可以生成适用于整个站点同一主题信息的抽取,并且提供了多种可选择的抽取方式,这样可以在不同的情形可以选择更合适的抽取方式。2、抽取信息的定位综合使用了基于DOM树的路径信息、可视化和不变文本信息。本文提出了使用EPath(Extraction Path)描述DOM树的路径信息和解析定位结点的算法。EPath对传统的XPath进行了改进,EPath不仅包含结点的位置信息、属性信息,还包含了可视化方面的信息。在解析的过程综合了这几种属性进行定位结点,对结点的match度进行打分,选择最佳的结点,而不是像XPath每次只能采用一种策略的速错方法。解决了同一模板生成数据中可选数据项导致结构差异的问题。3、基于浏览器的导航技术,表单提交、重复子结构识别和翻页装置的识别,解决了深度网抽取、javascript、AJAX处理的限制。4、定义复杂的抽取指令,相当于信息抽取领域的DSL(Domain Specific Language),可以解决复杂的抽取任务。基于以上思路,本文将他们应用于实用的系统中,并构建了可以作为Web信息获取的工具,为信息整合、垂直搜索提供数据源。