论文部分内容阅读
政府掌握着丰富且具有价值的数据资源,“开放政府数据”可以推动资源的有效利用,避免数据资源的闲置与浪费。我国的“开放政府数据”运动正处于快速发展阶段,仅2019年便新增50多个地方政府数据开放平台,但快速发展的同时也存在着很多问题。我国的政府开放数据与美国、欧盟等发达国家相比存在着数据质量较低、格式不规范等问题。数据质量决定数据的可用性与易用性,数据质量问题影响我国政府数据开放的效果,只有高质量的数据才是可用的数据。数据清洗是提高我国政府开放数据的数据质量的方式,但针对我国政府开放数据中存在的数据质量问题,目前并没有合适的数据清洗框架与工具,这将影响到数据开放的效果。为此,本文的主要工作有:(1)调研我国政府开放数据,发现其存在的数据质量问题,并按照政府开放数据领域通用的数据质量维度标准记录每个维度存在的质量问题;(2)根据我国政府开放数据中“脏数据”的种类与特点,明确了我国政府开放数据的清洗需求,分别为“脏数据”清洗与数据的格式转换。设计开发适用于我国政府开放数据的基于规则的数据清洗框架,根据国际与国内的数据标准,利用清洗规则实现对“脏数据”的清洗,提高数据质量,同时将清洗后的数据通过格式转化为多格式数据,满足用户对多格式数据的使用需求;(3)调查我国地方政府数据开放平台的新冠肺炎疫情数据的开放情况,通过已设计的数据清洗框架中的数据分析模块对疫情数据进行质量分析并获得质量元数据表,利用质量元数据表与所需的数据清洗规则对其进行数据清洗,将每种清洗规则对应的清洗前后的数据进行实例对比,实现了疫情数据中“脏数据”数据清洗和数据的格式转换。证明了该数据清洗框架的可用性。本文工作旨在通过数据清洗来提高我国政府开放数据的数据质量,及为我国政府开放数据领域的数据清洗框架的设计提供一定的借鉴与参考。