论文部分内容阅读
Web信息量急剧增长,如何能方便有效地从大量Web网页中获取准确有用的信息是人们目前的迫切需求,Web信息抽取正是为满足这一需求而出现的研究领域。Web信息抽取技术已经有10多年的研究历史并已取得了较大的技术进展。尽管如此,目前已有的工作大都局限于某个局部处理阶段或技术,在完整过程Web信息抽取模型和综合抽取集成处理技术等方面缺少系统完整的模型研究,在基本模型研究方面的不足制约了理想的Web信息抽取技术和系统的研究和开发,所研究的技术难以形成完整的和实际可用的系统。大多数现有的研究工作、尤其是自动化的技术方法研究,仅仅停留在对已获取网页的数据抽取处理技术上,忽略了深度网页访问时的用户交互性和数据动态性,缺少对抽取过程中深度网页自动浏览导航和获取技术的研究。同时,大多数自动化方法虽然可以提高自动化程度,但缺少抽取数据的结构语义集成处理能力,且数据抽取精确度不够高。基于用户交互的半自动抽取规则生成技术虽然实现较高的数据抽取精确度,但与自动化方法相比,又存在自动化程度不高、用户负担较重的缺陷。面对数据抽取精确度和处理效率两者间的矛盾,目前还缺少能同时兼顾两者的综合处理技术和方法。本文在总结现有相关研究工作的基础上,分析了当前研究和系统存在的不足。针对现有技术存在的诸多不足,本文进行了五个方面的主要研究工作。第一,针对目前缺少系统完整模型研究的现状,本文首先进行了相关的基本模型的研究。首先研究提出了一个包括网页浏览导航、原始数据抽取、以及数据语义化集成三阶段完整Web信息抽取的过程模型,以及面向复杂应用处理的抽取集成数据模型。为了解决数据抽取精确度和抽取处理的自动化的矛盾,本文研究并提出了一个抽取规则生成综合处理方法和模型,允许将自动化数据分析抽取方法和基于用户交互的半自动化精确信息抽取方法相结合,在保证数据抽取精确性的同时,尽量提高抽取处理的自动化程度。为了能够研究实现完整可用的精确Web信息抽取技术和系统,本文研究了完整过程Web信息抽取集成综合处理模型,包括多页面复杂结构数据抽取集成综合模型,完整过程Web信息抽取包装器等模型。第二,针对目前Web信息抽取领域缺少网页浏览导航和获取技术研究的现状,本文进行了深度网页自动浏览导航技术研究,研究提出一种面向Web信息抽取的深度网页浏览导航通用模型,主要包括交互和浏览导航动作模型、以及复杂结构网页链接关系模型;并基于浏览导航模型研究设计了基于XML的浏览导航语言。第三,基于基本模型,为了提供强有力的数据抽取逻辑表达能力,论文研究设计了多功能化综合规则模型和规则体系,研究设计了结构和文本两类基本规则,提供各种粒度数据元素的定位、抽取、细粒度过滤、抽取异常处理等各种功能规则;在此基础上,为了提供强有力的数据抽取描述机制,研究设计了基于XML的、适合于自动化结构分析和用户交互规则生成的抽取规则描述语言。第四,在综合规则模型和体系研究基础上,本文进一步研究设计了抽取规则生成技术和方法,对于非规整数据页面,研究使用了基于用户交互的半自动化抽取规则生成方法;对于规整数据页面,利用页面自动结构分析技术,将自动分析结构快速自动转换为统一的抽取规则;同时,为了克服用户手工编写细粒度文本数据抽取正则表达式规则的繁琐和困难,本文研究设计了基于小样学习的自动化文本规则生成技术。最后,本文设计并构建了一个原型的Web信息抽取系统WEBINEX,并给出了用户使用的过程示例。初步试验结果说明,本文的研究工作基本达到了预期的效果。