论文部分内容阅读
随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息源。在这个巨大的信息源面前,人们自然希望利用成熟的数据库技术对感兴趣的数据进行方便的查询、分析和报告。这就刺激了围绕这些数据源开发数据集成系统的研究工作。数据集成系统组合来自不同数据源的数据,目的在于以一个统一的视图提供给用户使用。 数据抽取是数据集成系统的基础问题之一,这一问题可简单地描述为:给定数据源S,确定一个S到数据库R的映射M,该映射用数据抽取模型、抽取规则和抽取算法去抽取S中的数据对象,用数据库模式、映射规则和组装算法将已抽取的数据对象组装到R中(本文将数据抽取模型、抽取规则、数据库模式和映射规则通称为元数据)。实现映射M的计算机程序称为包装器。数据集成系统常用包装器生成工具生成所需的包装器。由于数据源的多样性和复杂性,如何快速准确地为各种数据源建立包装器是数据集成系统实现的关键。这一课题已成为计算机界研究的热点,也是本文研究的核心问题。 本文的研究动机是从各种生物数据源中抽取感兴趣的数据对象,将这些数据对象组装到生物数据集成系统中,目的在于为生物学家搭建方便的查询分析平台。从数据抽取的角度讲,生物数据源不仅规模庞大,抽取准确度要求高,而且往往具有一些会导致现有包装器生成工具失效的复杂特性。首先,生物数据源中的数据对象具有结构复杂性:数据对象往往具有多层嵌套结构,对象的成分可以缺失、多次重复、有序出现或无序出现;其次,抽取规则具有复杂性:生物数据源常用非标准标签对数据对象进行分隔,许多需抽取的对象甚至没有恰当标签,某些指定的标签可能会在数据对象内容中出现,导致歧义(即数据源中含有噪声成分);第三,映射规则具有复杂性:往往需要对已抽取的数据对象实施一些扩展操作后才能将它们组装到数据库中。 本文从分析现有包装器生成工具在处理复杂生物数据源时存在的问题入手,提出了两种面向复杂数据源的数据抽取模型和算法,在此基础上设计和实现了ReDE包装器生成工具和L-树包装器生成工具。本文的主要研究成果包括: (1) 提出了一套面向无噪声复杂数据源的新型数据抽取方法 针对现有包装器生成工具需要手工生成和维护大量元数据的问题,本文实现了利用元数据间的依赖关系,从正则表达式(Regular Expression,简称RE)自动导出其他元数据的映射方法。这一方法降低了元数据生成和维护的工作量,保证了元数据间的一致性;针对传统RE匹配算法在解决数据抽取问题时存在的不足,本文设计了一种基于传统RE匹配的新型数据抽取算法,该算法将传统RE匹配作为基本建筑模块,利用RE分析树在数据源中递归地进行数据对象的切分、