数据采集中数据质量评价与提升方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:hbh0429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据的采集过程中,由于用户录入错误、环境改变、同一事物的不同表达、不同数据库相互融合等原因,录入到数据库中存放的数据往往存在着不完整、不一致、冲突或者不准确等问题。数据的存在是因为它的价值,有些数据用作证据,有些数据用来做分析和预测,不管数据的作用是什么,如果数据出现不准确、缺失以及其他问题,都会降低数据存在的价值,有时甚至带来深重的灾难。然而,数据集中数据质量问题的严重程度通常无法知晓,因此本文旨在通过对数据质量相关的文献进行梳理,总结在这方面的研究成果,重点讨论数据质量指标量化与评价方法,以得出当前数据质量的评价结果,进而采取相应的措施来提升数据质量,最终建立起数据质量评价与提升模型。本文的主要工作包括如下几个方面:(1)建立定量的数据质量评价模型。目前大部分的评价模型都是定性的,定量的很少或者只是从某一个单一维度,所以本文致力于提出一个定量的数据质量评价模型,从当前数据存在的主要问题出发,设计了数据质量的评价指标框架,并对完整性、一致性、准确性、时效性、规范性问题给出了明确的定义,制定了相应具体的评价算法。为了处理多个定量的指标值,对数据做出一个总体的评价,本文还引入了模糊综合评价方法,进而建立起七元数据质量评价模型。本文还选取了实验数据对模型进行实验,实验有效地对数据质量给出了评级,得到了良好的实验结果,证明了评价模型的可行性。(2)针对数据源中质量问题,本文提出了基于规则的数据质量提升算法,对数据质量的一致性、准确性、完整性、时效性、规范性进行提升。此外,本文按照字段在记录中的重要性的不同,分离出了决定性字段,并且结合属性相似度,最后实验证实了本文的方法能够有效、合理地修复数据集合上的质量问题,有效地提升数据准确性、一致性、规范性、时效性、完整性。
其他文献
本文针对档案交接工作中存在的问题,阐述了基层单位档案交接工作的重要性,制订了档案交接工作的整改措施。对基层单位档案交接工作起到了良好的指导作用。
随着人们生活水平的提高和社会经济水平的不断发展,人民对于身体健康水平也提出了新的更高要求。对医疗设备全生命周期的网络化管理有十分重要的实现意义。文中从医疗设备网络
蛋白质的二级结构检测是生物信息学领域的一个重要课题。深入地了解和认识蛋白质的二级结构,对于蛋白质折叠、蛋白质的建模、生物大分子药物设计以及蛋白质结构与功能分析等
牡丹作为黄河流域常见花卉,在南京地区栽培时,出现种种生长不良的状况,本文从引种,养护,病虫害防治等方面着手,采取各项措施,改善栽培环境,为牡丹能正常开花,总结经验。
民间美术是民族文化的瑰宝。在校期间培养高中生对美术学科中民俗文化及民间美术的认识和兴趣是十分必要的。美术鉴赏课内容多且包容并蓄,蕴含深刻的人文色彩。中国民间美术
本文分析了当前形势下技术机构的现状,提出持续发展的方法与对策,以及建立和创新人才机制。
会计模拟实验教学是实现课堂理论教学与实践教学相结合的有效途径,是有效解决实践教学目标与弥补校外实习不足的最佳途径,是提高学生动手能力,推动素质教育,培养应用型人才的有效
高管激励作为公司治理的重要组成部分,其实质是对高管付出的一种补偿,从而达到激励高管才能发挥和留住优秀人才的目的。如果公司能够给予高管适当的激励,如货币薪酬激励或股权激励,将有利于充分发挥高管的工作积极性,鼓励他们更加努力的工作,这对公司绩效的提升大有裨益。但是,目前多数研究仍然停留在高管激励与公司绩效两者之间的传导机制和作用机理上,并没有深入探讨它们之间的具体作用路径。当前,中国经济增长的动力正由
利率市场化给商业银行带来了强烈的冲击,商业银行转型过程中的重点目标是降低中间业务的成本和风险,提高收益。银行中间业务对银行经营绩效有重大的影响,但对银行经营绩效影响是利还是弊在业界有较大的争议。论文采集了五家国有制商业银行和八家股份制商业银行从2008年至2017年的面板数据,根据相关系数法选取与银行经营绩效相关的指标,建立银行绩效与这些指标的逐步回归模型,在逐步回归模型中包含中间业务占比指标,还
文章介绍了甲壳素、壳聚糖的结构性能与研究历史,讨论了甲壳素纤维的纺丝方法、产品开发与应用。