论文部分内容阅读
当前XML已经成为Internet上各类应用系统之间数据表示和交换的标准,越来越多的关系数据库应用系统采用XML作为标准格式来发布和交换数据,研究关系数据和XML数据之间的转换方法,实现各类异构关系数据源基于XML的发布已成为当前数据管理领域一个重要的研究方向。
数据的完整性约束是数据模型中数据及其联系所具有的制约和依存规则,在数据发布和交换中保持语义信息等方面发挥着重要作用。基于XML的关系数据发布,是在两种不同数据模型上进行的数据转换。已有的数据发布工具主要针对两个数据模型的结构层面来设计,缺少对数据语义,尤其是完整性约束的分析,使得基于XML的数据发布过程丢失了原有数据及其联系所具有的制约和依存规则,不能保证满足预定义模式中的约束。因此,研究基于XML的关系数据发布过程的完整性约束的转换、验证和保持,无论在理论上还是应用中都具有重要的意义,并且成为当前XML数据管理领域的一个研究热点。
论文深入研究了基于XML的关系数据发布中涉及的数据完整性约束的问题,提出并设计了数据发布过程中关于数据完整性约束的保持、转换和验证等方法,建立了一个比较完整的保持完整性约束的数据发布体系,具体研究成果包括:1.设计了一种保持完整性约束的数据发布规则生成机制DAPPICDAPPIC机制设计了一种将描述数据集成关系的逻辑视图、包含约束、嵌套结构等统一转换为约束规则的方法,提出了约束规则图模型和基于该模型的约束视图构造算法,将异构XML模式树上的保持完整性约束的数据发布问题变换为源模式一目标模式上约束视图间的数据映射问题;DAPPIC机制的核心部分提出了基于约束规则图的最大映射集合计算方法和发布规则生成算法,并通过有效的规则变换使得基于XML的数据发布过程保持了数据源数据及其联系所具有的制约和依存规则,也提供了一种必要的机制来保证关系数据发布的XML文档遵从预定义模式中的完整性约束。
2.提出了数据发布过程中键约束的自动转换和动态验证方法论文提出了一种基于路径映射规则的XML键约束转换方法,将关系数据库模式图中的键和外键约束自动转换为XML模式描述的层次关系和键约束。针对XMLSchema规范中键约束的定义设计了键约束的选择器索引和转换算法,从而实现了基于XML的关系数据发布过程中键约束的自动转换;论文提出了一种面向数据发布过程的XML完整性约束动态验证方法,设计了面向动态检查的上下文节点索引和XML键值文档结构,提出了快速键值文档生成算法和验证算法,实现了面向数据发布过程的XML键约束动态验证和增量验证机制。
3.提出了基于约束的XML频繁查询模式快速挖掘与语义缓存构建方法论文提出了一种将XML模式中蕴涵的约束信息“推进”到XML频繁查询模式挖掘和语义缓存构建过程的策略:提出一种用于刻画查询模式集合中数据约束关系的“势约束矩阵”,设计了由XMLschema生成该矩阵的有效算法;提出并设计了基于势约束矩阵的频繁查询模式快速挖掘算法用于构建XML数据发布的语义缓存,在保证结果完备性的前提下有效减少生成候选模式产生的冗余,提高了语义缓存构建的效率。
为了比较全面地分析和考察本文中提出的一系列关于数据完整性约束的保持、转换和验证等理论和方法的有效性,结合国家863数据库重大专项课题原型系统CoXML的研制工作,在标准测试数据集和真实数据集上分别完成了大量实验,通过多角度的对比测试和性能分析验证了方法的有效性。
结合本文的研究内容,共发表论文十余篇(其中7篇为第一作者)。其中作为第一作者在InternationalJournalofFGCS上发表一篇;作为第一作者在WAIM2004上发表的论文被ProgramCommittee评选为“BestPaper”并推荐到国外学术期刊;所发表的论文多数已被SCI/EI/ISTP检索。另外,作为主要发明人参与申报国家发明专利3项。