论文部分内容阅读
人类认知存在的局限性、信息描述的差异、度量的误差以及数据的动态变化等等,往往会产生许多不确定的数据。而随着不确定性研究的深入,未来世界的不确定性特征逐渐得到现代学术界的普遍认可。但是传统的关系模型对不确定数据的表示与存储缺乏处理,因此,有关概率数据模型的研究受到了广泛关注,首先出现了基于关系的概率数据模型,但其结构化的特点决定了它不适用于存储和处理概率数据。网络技术的蓬勃发展,更加增加了数据的多样性和不确定性,这些数据往往有着不同的结构,不同的来源,以及不同的产生原因,所以各数据源之间的规模、可信度与可用度往往也存在较大的差距,因此需要有新的比结构化方式更适宜的存储方式。随着XML的出现及快速发展,XML已经普遍用于Web上的数据表示与交换,而且XML的半结构化、自描述性好及可扩展性高等许多优点,使其在概率数据表示上与关系概率模型相比较占优势。目前已有基于XML的概率数据模型的相关研究,但已有模型的查询操作多局限于单个数据源,对于多数据源情况下的概率数据的管理却缺乏研究。不同来源的数据,其规模、可信度,以及数据的有效时间,生成时间以及数据源被查询引用的次数等等,这些信息都应该对多数据源下概率数据的管理产生影响,而不应被忽略。本文在已有模型思想的基础上,提出了一种扩展的基于XML的概率数据模型。新模型使得概率查询操作不再局限于单个数据源,而是充分利用各数据源自身的信用度、规模等信息,支持多数据源情况下XML概率数据间的归并与查询操作,从而可以提供更加真实有效的信息。本文的主要工作如下:(1)讨论了不确定性数据的产生途径,并对概率数据模型的研究现状进行了分析,分别总结了基于关系与基于XML两大类概率数据模型的特点与不足。(2)根据已有模型的思想,提出了一种扩展的基于XML的概率数据模型,给出新模型的形式化定义及其所要满足的DTD描述,分析其单实例查询及多实例归并与查询的实现方案与算法。此外,新模型还解决了用XML表示概率数据所引入的数据依赖问题。(3)对新模型的性质进行分析,证明新模型的操作在该模型上的封闭性,兼容性与统一性等。(4)对模型的实现架构与实验环境进行讨论,通过实验,对新模型的查询归并等操作的性能进行了分析。