论文部分内容阅读
随着网络信息技术的快速发展,如果大数据中有许多遗留下来的历史数据,那么用户从数据仓库中提取信息时可能会过时或不准确,时效性差的数据可能会对人们的日常生活和企业决策分析带来许多不利影响。因此,对数据的时效性判定问题研究对提高数据质量至关重要。当前的数据时效性判定方法可分为三类:基于时间戳的方法、基于不确定规则的方法和基于确定规则的方法。基于时间戳的方法要求完整精准的时间戳,但这样的时间戳在很多实际应用中是不存在。基于不确定规则的方法是针对表达不确定的领域知识,不依赖冗余记录,虽能提高召回率,却会损失精确率。当前基于确定规则的时效性判定算法均是依赖于冗余元组和时效约束关系,但在判定其数据时效性时仅考虑了属性的主观权重。对此,本文在基于确定规则的数据时效性判定方法基础上进行深入研究,定义了综合属性主观权重和属性之间依赖关系的用户置信度,并提出了基丁用户置信度的完备数据时效性判定算法,以提高数据时效性查询结果的质量。同时发现对不完备数据时效性判定的研究比较薄弱,本文还进一步提出了一种基于用户置信度的不完备数据时效性判定方法。(1)针对数据的时效性模型及李默涵等人给出的对数据时效性判定问题的求解算法未考虑属性之间依赖关系,提出了一种基于用户置信度的对完整数据的时效性判定方法。该方法结合用户的主观权重、属性与属性间的依赖关系、冗余记录以及时效约束4个方面进行综合考虑,在对完整数据的时效性判定过程中,用户置信度是依据冗余记录中每个属性的用户主观权重和属性之间的依赖关系,即属性的主客观权重而确定的;并在真实数据和虚拟数据集合上进行对比实验,其结果表明该算法在对完整数据进行数据时效性判定时,其查询结果在准确率、召回率和时效性判定值得到了提高,优于文献[22],进而表明本文所定义的用户置信度因子在处理完备数据时效性判定的权重是合理的和有效的。(2)针对传统数据时效性模型在处理不完备数据时的不足,提出一种基于用户置信度的不完备数据时效性判定方法。首先,依据属性类型分类思想对不同类型的不完备数据集合进行预处理,使其更接近完备数据,有助于时效性建模和时效性判定计算;其次,依据不完备数据的时效约束关系建立不完备数据时效性模型。在对最新值查询判定时,空值不可能是最新值,如果错误数据是最新值,则全都放在最新值的记录集合中,若不是最新值,则对最新值查询的时效性判定值无影响;在时效序列查询判定时,将成对的错误数据作为一个结点按照其时效约束关系进行构造时效图。然后,依据不完备数据集合中冗余记录的属性主观权重和属性之间依赖关系即客观权重计算其用户置信度。最后,将本文提出的基于用户置信度的不完备数据相关时效性判定方法在真实数据集和虚拟数据集上进行实验,其结果表明该方法在时间复杂度为多项式时间的前提下是有效的和可行的。