论文部分内容阅读
不确定性数据(Uncertain data)是数据采集及处理技术的进步与发展的产物,近年来受到学术界和工业界的广泛关注。不确定性数据产生的原因特殊,可能是采用了粗粒度的数据集合或是原始数据本身不准确,也可能是为了满足特殊的应用目的,或是在数据集成过程中、处理缺失值而产生;与此同时不确定性数据的表现形式也多种多样,它们可以是流数据、移动对象数据、关系型数据或者半结构化数据形式。基于种种原因,这些不确定性数据中往往会存在一部分异常数据,而人们希望得到的能够正常使用的不确定性数据是可靠的、没有错误的。不确定性数据的清理已经成为了一个热点问题。目前针对不确定性数据的质量管理方法以及形式差异,研究者、学者已经提出了很多关于不确定性数据的数据模型,这些数据模型的核心就是可能世界模型。可能世界模型可以将不确定性数据演化为多个可能世界实例,同时可能世界实例又对应有一个概率,方便对不确定性数据质量进行管理研究。然而可能世界实例的规模远远大于不确定性数据库的规模,所以将可能世界模型作为不确定性数据的数据模型时必须运用剪枝、排序等启发式技术设计新型算法,用以提高效率,这势必将会是一个异常繁琐的过程。信息熵是信息论中用以定量描述信息的不确定性、稳定程度和信息量大小的方法。本文将不确定性数据的信息量大小定义为不确定度,以信息熵为支撑理论,通过不确定性数据的概率,定量地计算不确定性数据的信息量。基于此可以有效减少可能世界实例,高效地完成不确定性数据的清理。以信息熵为支撑理论,本文的主要工作包括:·将信息熵的理论引入到不确定性数据中,计算不确定性数据的不确定度,以此作为计算不确定性数据可信区间划分标准的前提。·结合数理统计的方法,针对数值型不确定性数据,通过计算得到不确定性数据可信区间的划分标准,并给出可信区间。·清理不确定性数据库中不在可信区间内的不确定性数据数据,更新不确定性数据库,完成清理工作。·进行不确定性数据清理的模拟实验,通过实验验证了本文方法的高效性和有效性。