论文部分内容阅读
随着互联网络时代的到来,数据越来越多地开始以网络在线的方式进行存储、集成、发布和交换。由于XML具有跨平台,简单易用等特性,在很短的时间内就获得了广泛认同,在众多应用领域中,已成为主要的数据表示和交换的标准。XML作为一种半结构化数据的表示模型,具有很强的信息表现力,它既可以表示结构化的数据又可以表示非结构的数据。但在现实世界中常常存在一些不完全的信息,特别是在数据交换过程中,经常会因为XML模式不同而产生不完全信息。这些不完全信息会对XML数据库中的连接、查询等操作造成不良影响。因此,如何及时的发现XML文档中出现的这些不完全信息,并进行相应处理就变得尤为重要。目前,国内外的研究者针对XML中不完全信息所展开的科研工作主要集中在理论研究上,重点是进行不完全信息函数依赖的规则推理。对于有效的发现有价值的函数依赖以及通过这些函数依赖来补全这些不完全信息,还没有深入的研究。基于目前的研究基础,本文将如何有效的发现及补全XML中的不完全信息作为了研究的重点。通过我们的这些研究,可以进一步增强XML文档表示现实世界的能力,进而推动理论和实际相结合,产生巨大的经济效益。本文通过对一个典型的例子展示了如何对XML文档本身进行分析,找出其中所包含的对于发现不完全信息有帮助的函数依赖,然后使用这些函数依赖发现XML数据中的不完全信息,并进行相应的补全。我们所做的主要工作如下:1.在XML中引入不完全信息的相关概念,即当树节点中存在一些节点的值为空值的情况下,形成一棵不完全信息树,并由此引入了树元组、元组类等一系列概念。2.比较了XML Schema与DTD的优劣,对于为何选择XML Schema作为研究的基础进行了重点阐述。3.针对如何发现有价值的函数依赖问题,本文提出了DiscoverFDs算法,这一算法关注于不完全信息,通过对于XML文档进行属性划分的比较,动态的发现有价值的函数依赖。DiscoverFDs算法是我们进行相关研究的有力工具,是本文进行论述的重点。4.利用上述有价值的XML函数依赖,在XML数据库中可以通过对其数据进行比较分析,使用XMLChase算法进行不完全信息的追赶补全。