论文部分内容阅读
随着现代社会信息量的不断增大,不正确、不一致、不确定的劣质数据开始普遍存在于数据管理系统中,极大地降低了数据的质量,给社会带来了严重的损失。因此,迫切需要新的技术来处理劣质数据,这为数据管理带来了新的挑战。当前处理劣质数据的方法主要是数据清洗和数据修复。然而,这种方法存在一定的局限性:无法彻底清除或者修复数据,而且执行清洗和修复的时间代价相当大,不能有效的解决劣质数据引起的问题。所以,在很多情况下,需要在一定程度上容忍劣质数据的存在。当前已经有直接针对劣质数据进行查询处理的技术被提出,但是,这些工作大多只是针对特定的查询,并不具有普遍的适用性。基于这些原因,需要一种统一的模型对劣质数据进行管理。当前应用最广泛的模型是概率数据模型,该模型可以表示不确定的数据,但是无法描述数据操作对操作结果质量的影响,不能够根据用户对查询结果的质量需求获取相应的结果。更重要的是,应用概率数据模型的数据库在执行查询的过程中,会产生所有的可能世界实例,这将导致数据规模的指数增长,影响系统效率。针对上述方法和模型的不足,本文提出了一种可以有效管理劣质数据的模型——实体关系数据模型。该模型引入了数据清洁度的概念,并重新定义了传统的查询操作,描述了操作结果的清洁度和数据清洁度之间的关系,可以提供满足一定质量的查询结果。针对新模型的特点,传统的查询处理技术不再适用,本文重点研究了采用该模型的实体关系数据库中查询估计技术的实现。首先提出了适于实体关系数据库的选择操作结果大小估计的新方法。新的估计方法提出了三种不同的新直方图结构,这些新的直方图解决了现有直方图在实体关系数据库查询估计过程的缺陷,可以得到更精确的估计结果。然后提出了估计相似连接操作结果大小的新方法。该方法首先应用局部敏感哈希算法对属性值进行聚类,使得相似属性值聚集在一起,然后在聚类集中采样估计相似连接的结果大小,从而提高采样的效果,而且在聚类过程中,充分考虑清洁度的影响,使得聚类结果更加准确。最后通过实验证明了本文提出的针对实体关系数据库的两种查询操作结果大小的估计算法的有效性。