论文部分内容阅读
随着大数据的发展,大量的开源数据在网上公布。另外,还有大量的有偿使用数据被当作商品进行交易。然而,这些数据中存在很多的质量问题,如不完整性、不一致性、不正确性等,这些问题影响了对数据集的使用。为了能够充分使用这些数据集,了解这些数据的质量变得很重要。相关的研究者们提出了很多的度量和工具对数据集进行不同维度的评估。但是,并没有从用户使用的视角对数据集进行评估。而且使用性对数据集的重用和推广有很大的影响。在本文中,本文将软件质量中的概念和方法应用在数据的质量评估中,提出了基于使用质量的数据质量模型,主要包括内部质量、外部质量和使用质量。在该模型下,设计了一个通用的数据质量评估框架,并详细定义了内部质量和使用质量下的具体度量。然后利用这些度量对LOD中两个主要的数据集(DBpedia和YAGO)进行评估,同时也对医疗领域中的病人电子病例数据进行质量评估。评估结果不仅验证了本文定义的度量的有效性,也反映了这些知识库的新特性。