面向政府数据开放的数据清洗框架与应用研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:n00nn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
政府掌握着丰富且具有价值的数据资源,“开放政府数据”可以推动资源的有效利用,避免数据资源的闲置与浪费。我国的“开放政府数据”运动正处于快速发展阶段,仅2019年便新增50多个地方政府数据开放平台,但快速发展的同时也存在着很多问题。我国的政府开放数据与美国、欧盟等发达国家相比存在着数据质量较低、格式不规范等问题。数据质量决定数据的可用性与易用性,数据质量问题影响我国政府数据开放的效果,只有高质量的数据才是可用的数据。数据清洗是提高我国政府开放数据的数据质量的方式,但针对我国政府开放数据中存在的数据质量问题,目前并没有合适的数据清洗框架与工具,这将影响到数据开放的效果。为此,本文的主要工作有:(1)调研我国政府开放数据,发现其存在的数据质量问题,并按照政府开放数据领域通用的数据质量维度标准记录每个维度存在的质量问题;(2)根据我国政府开放数据中“脏数据”的种类与特点,明确了我国政府开放数据的清洗需求,分别为“脏数据”清洗与数据的格式转换。设计开发适用于我国政府开放数据的基于规则的数据清洗框架,根据国际与国内的数据标准,利用清洗规则实现对“脏数据”的清洗,提高数据质量,同时将清洗后的数据通过格式转化为多格式数据,满足用户对多格式数据的使用需求;(3)调查我国地方政府数据开放平台的新冠肺炎疫情数据的开放情况,通过已设计的数据清洗框架中的数据分析模块对疫情数据进行质量分析并获得质量元数据表,利用质量元数据表与所需的数据清洗规则对其进行数据清洗,将每种清洗规则对应的清洗前后的数据进行实例对比,实现了疫情数据中“脏数据”数据清洗和数据的格式转换。证明了该数据清洗框架的可用性。本文工作旨在通过数据清洗来提高我国政府开放数据的数据质量,及为我国政府开放数据领域的数据清洗框架的设计提供一定的借鉴与参考。
其他文献
随着国内航空市场需求的增加、航空设施的完善与国家政策的大力扶持,我国通用航空业面临着一个较大的发展空间,雄厚的社会资金被吸引到通用航空产业,大量新兴的通用航空公司
目的研究分析产科护理中不安全因素,并提出相应的护理措施。方法病例筛选2016年1月份-2017年5月份,病例筛选资料完整的2000例为本次研究对象,对本次研究对象资料进行筛选,对
目的探讨肿瘤标志物和肝功能指标联合检测在胰腺癌肝转移早期诊断中的临床价值。方法选取125例胰腺癌患者,其中肝转移58例,无肝转移67例。检测患者血清肿瘤标志物和肝功能指
物理作为一门以实验为基础的学科,巧妙地设计实验,可以使得教学过程更具有趣味性,更容易吸引学生的注意力,调动学生学习物理的兴趣.文章以高中《物理·选修3-1》中2.3节&
国内铺布设备发展缓慢、设备故障率高、可控性差等问题严重制约中小服装企业的发展。设计了一种基于双PLC与触摸屏的智能铺布机,介绍了该铺布机的机械结构、铺布工艺,设计了
疫苗接种对于社会公共卫生安全和国民的身体健康具有重要作用,特别是对于传染病的防治更有不可替代的意义,但是近年来疫苗安全问题备受关注,疫苗侵权案件目前适用《侵权责任法》,大都是法律的扩大解释,没有针对疫苗的具体规定,本文主要就疫苗接种的侵权法律问题展开研究。绪论部分主要是关于疫苗侵权法律问题的社会背景、研究思路和研究方法的介绍,文章的主体部分是第二章到第六章,结合相关案例分别从五个方面进行阐述。第二
提出了一套简单有效的IT外包服务商评价指标体系。通过结合层次分析法,建立了一种基于离散型Hopfield神经网络的评价模型,实现了对IT外包服务商的多指标评价。为企业用户评价、
单片机在纺织工厂织布车间的应用,可以使车间管理人员及时、准确地掌握车间的生产状态,分析工人的操作水平、原材料对生产的影响等,能够有的放矢地指挥生产,实现车间管理现代化。