论文部分内容阅读
随着人们对客观世界认识的不断深入,计算机应用中普遍存在的数据不确定性逐渐得到业界的关注。尽管在传统数据库领域中作为多目标决策重要手段的轮廓查询得到了广泛深入的研究,但是由于不确定数据带有概率,传统数据库领域的轮廓查询算法都不能直接应用到不确定数据库中。 由于轮廓查询在多目标决策、无线传感器网络、数据挖掘等方面的重要应用,基于不确定数据的轮廓查询成为近期的研究热点。然而,现存的基于不确定数据的轮廓查询不符合某些用户需求,还需要研究新的轮廓查询及其相关算法。基于以上原因,本文提出两种不同的基于不确定数据的轮廓查询算法。本文的主要工作总结如下: (1)首先定义了概率阈值轮廓点的概念并提出了一种基本的概率阈值轮廓点查询算法,接着提出一种改进的算法。在改进算法中,将存在概率大于等于0.5的非阈值轮廓点所组成的轮廓和存在概率小于0.5的非阈值轮廓点所组成的轮廓分别作为过滤器。查询过程中,将被查询对象和过滤器进行比较,如果查询对象被过滤掉,则不用进行进一步的计算。 (2)在假设元组不独立的基础之上,提出带规则的概率阈值轮廓点查询算法。本文考虑的规则主要包含两个方面:互斥规则和共存规则。所谓互斥规则是指规则内的元组最多只有一个元组能够出现在一个可能世界中;所谓共存规则是指规则内的元组必须同时出现在一个可能世界中。 (3)定义了不确定轮廓的概念并提出了基于排序的不确定轮廓查询算法和基于R-tree索引的不确定轮廓查询算法。为了提高算法效率,提出剪枝策略,并提出一种改进的算法。剪枝策略的理论依据是如果元组不被当前轮廓支配,且存在概率大于等于0.5,则只发展包含此元组的轮廓即可,不包含此元组的轮廓可以忽略不计。 (4)最后,通过实验证明了本文提出的所有算法的有效性以及改进算法性能的显著提高。