论文部分内容阅读
在大数据时代,人们可以很方便快捷地通过不同的渠道在互联网上获取到各类数据。这些数据由于人为录入的错误、数据版本的不同、数据来源不同、人为篡改等原因往往会存在数据属性缺失、数据相似重复、数据属性值异常等问题。这些错误数据可能会造成数据冗余,浪费存储的空间,更严重有可能会导致数据挖掘时产生严重的偏差,进而给出错误的决策[1]。针对上述问题,需要对三类错误的数据情况进行识别,评价数据的可用性,建立指标体系对数据的可用性进行打分。本文针对数据可用性评价的问题,设计实现了网络开源数据可用性评价系统,并阐述了属性缺失型数据、相似重复数据以及数值异常型数据的识别方法,用来计算定量评价指标的数值,并提出了从准确性、一致性、完整性、唯一性、时效性、可操作性、适用性等七个方面对数据可用性进行全面评价,建立数据可用性评价体系。本文首先实现对错误数据进行识别,其中包括对属性缺失型数据、相似重复数据、数值异常型数据分别进行识别并统计识别的结果。将识别的结果用来计算数据可用性评价中定量指标的数值。其中主要介绍了基于属性集差异的方法实现对列属性缺失型错误数据的识别,通过寻找具有规律排序的数字序列实现对行属性缺失型数据识别。使用改进的基于编辑距离的字段匹配算法和近邻排序算法实现对相似重复数据的识别。改进的基于编辑距离的字段匹配算法能够处理字符串顺序颠倒的情况,提高了算法的普适性。改进的近邻排序算法,解决原始算法对排序关键字的依赖,并将窗口设为滑动窗口,提高了相似重复数据的识别率。其次本文实现了对数据可用性进行评价,建立数据可用性评价体系,确定各指标的权重。从准确性、一致性、完整性、唯一性、时效性、可操作性、适用性等七个方面对数据可用性进行评价。通过专家打分法和层次分析法相结合的方法确定数据可用性评价体系中各指标的权重。最终计算出数据可用性的得分,实现对获得的不同数据集进行评分,评价数据的可用性。最终设计实现了一个网络开源数据可用性评分系统,能够对数据集的可用性进行评分,其评分结果合理可信。