面向复杂数据源的数据抽取模型和算法研究

被引量 : 0次 | 上传用户:mgpd141314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息源。在这个巨大的信息源面前,人们自然希望利用成熟的数据库技术对感兴趣的数据进行方便的查询、分析和报告。这就刺激了围绕这些数据源开发数据集成系统的研究工作。数据集成系统组合来自不同数据源的数据,目的在于以一个统一的视图提供给用户使用。 数据抽取是数据集成系统的基础问题之一,这一问题可简单地描述为:给定数据源S,确定一个S到数据库R的映射M,该映射用数据抽取模型、抽取规则和抽取算法去抽取S中的数据对象,用数据库模式、映射规则和组装算法将已抽取的数据对象组装到R中(本文将数据抽取模型、抽取规则、数据库模式和映射规则通称为元数据)。实现映射M的计算机程序称为包装器。数据集成系统常用包装器生成工具生成所需的包装器。由于数据源的多样性和复杂性,如何快速准确地为各种数据源建立包装器是数据集成系统实现的关键。这一课题已成为计算机界研究的热点,也是本文研究的核心问题。 本文的研究动机是从各种生物数据源中抽取感兴趣的数据对象,将这些数据对象组装到生物数据集成系统中,目的在于为生物学家搭建方便的查询分析平台。从数据抽取的角度讲,生物数据源不仅规模庞大,抽取准确度要求高,而且往往具有一些会导致现有包装器生成工具失效的复杂特性。首先,生物数据源中的数据对象具有结构复杂性:数据对象往往具有多层嵌套结构,对象的成分可以缺失、多次重复、有序出现或无序出现;其次,抽取规则具有复杂性:生物数据源常用非标准标签对数据对象进行分隔,许多需抽取的对象甚至没有恰当标签,某些指定的标签可能会在数据对象内容中出现,导致歧义(即数据源中含有噪声成分);第三,映射规则具有复杂性:往往需要对已抽取的数据对象实施一些扩展操作后才能将它们组装到数据库中。 本文从分析现有包装器生成工具在处理复杂生物数据源时存在的问题入手,提出了两种面向复杂数据源的数据抽取模型和算法,在此基础上设计和实现了ReDE包装器生成工具和L-树包装器生成工具。本文的主要研究成果包括: (1) 提出了一套面向无噪声复杂数据源的新型数据抽取方法 针对现有包装器生成工具需要手工生成和维护大量元数据的问题,本文实现了利用元数据间的依赖关系,从正则表达式(Regular Expression,简称RE)自动导出其他元数据的映射方法。这一方法降低了元数据生成和维护的工作量,保证了元数据间的一致性;针对传统RE匹配算法在解决数据抽取问题时存在的不足,本文设计了一种基于传统RE匹配的新型数据抽取算法,该算法将传统RE匹配作为基本建筑模块,利用RE分析树在数据源中递归地进行数据对象的切分、
其他文献
博弈论的思想与实践在中外都有着很长的历史,到目前为止,博弈论已形成一整套完整的理论体系和方法论体系,已经成为人们分析问题时所普遍使用的工具。本文根据博弈论的分析方
正确翻译各种时政词语对于正确传达中国声音起着举足轻重的作用。在关联理论的框架下,提高时政新词翻译效度的有效策略是在政治内涵、语言表达、文化形象等方面追求目的语与
目的研究脑外伤后综合征(PTS)和重型颅脑外伤的脑血流、血液流变学的变化规律。方法PTS组122 例为A组,重型颅脑外伤组113例为B组,采用经颅多普勒分别探测大脑中(MCA)、前(ACA
在缺水地区,除了节水灌溉技术、节水栽培技术之外,调整种植结构也是农业节水的一项重要技术措施。水资源约束条件下的作物种植结构调整是个复杂的系统工程,不仅要考虑水资源
最低工资制度是国家规定用人单位应支付的最低劳动报酬的制度。我国从1993年起借鉴国际通行做法开始实行最低工资制度。最低工资制度对规范用人单位的工资支付行为,保护劳动
提起P2P软件,相信大家对其都不会陌生。下面就给各位推荐一款P2P软件新秀─POCO,它除了集网络搜索、下载、在线播放以及即时通讯功能于一身外,还真正实现了多点传输,使网络传
本文对基于知识库的MIS智能查询做了深入的研究。首先介绍了MIS的概念和组织方式,并对智能查询技术的查询语言、查询方式和技术作了简单的叙述;讨论了知识库构建的体系结构和
谢苗诺夫(Viatcheslav Semyonov)1946年生于俄罗斯,是当今世界著名手风琴作曲家、演奏家、教育家,手风琴工程师。现为莫斯科格涅辛国立音乐学院键盘系主任。手风琴是谢苗诺夫
融资租赁作为金融创新领域中的一种新型的交易方式,在其产生以来的五十多年间,以其在资本市场中较传统融资方式独特的竞争优势和重要作用获得了前所未有的年平均30%的高速发