数据质量评估与提升方法及应用研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:caoerduo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据的产生、存储、传输的过程中,难免会出现错误数据、缺失数据等问题,数据的存在是因为它的价值,有些数据用作证据,有些数据用来做分析和预测;不管数据的作用是什么,如果数据出现错误、缺失以及其他问题,都会降低数据存在的价值,有时甚至带来深重的灾难。因此,确保数据的高质量,是有效利用数据的基础。近年来,数据呈现爆炸式增长,人们对大数据的热情与日俱增,很多人努力寻找更好的数据分析方法,很少人注重数据质量问题,对数据质量进行研究的文章比较少。本文通过对数据质量管理研究的文献进行梳理,总结在这方面的研究成果,重点讨论了数据质量评估和数据质量提升方法,将聚类和分类方法引入到数据质量评估过程中,列举并比较了几种常见的聚类和分类方法,探索了这两种方法在数据质量评估的可行性,将测量工具分析方法Gage R&R以及方差分析法用于可行性分析,最后简单介绍了针对不同的数据质量问题应该采用的提升方法。以消费者投诉数据为实例研究对象,选择K-means聚类对数据进行质量评估,聚类数对应于待检验的人工分类数,每个聚类簇的名称与人工分类的名称相对应,再建立评估矩阵,采用Van Rijsbergen的FI值理论得到评估值,再用测量工具分析方法对这些评估值分析,发现聚类分析方法有可能用于数据质量评估。在数据质量提升方面,对于非标准化数据的质量提升做了详细介绍,采用关键词匹配的方法实现了数据标准化。经过对数据的探索以及质量评估,对数据质量管理提出了一些建议,将数据质量管理分为三部分:数据库设计阶段、数据生产过程、数据生产后处理。
其他文献
我国近几年文化产业的发展的势头较热,文化消费的潮流也逐渐兴起。由于文化消费是文化产业的终端环节,从文化消费数量和水平两个角度进行研究就显得至关重要。文化消费数量的增
企业创新能力是企业核心竞争力的一项重要指标。在世界经济的新形势下,我国现阶段劳动力成本不断提高、大规模低端制造业竞争力逐渐降低的情况正逐渐引起社会各界的广泛关注。如何培养创新型的人才,以此引导更多对市场和整体经济有益的创业者加入经济转型的大潮中,是需要给予重视并亟待深化理论研究的一项重要内容。本研究通过观察和文献阅读,发现在西方过往的一些研究中,学者们更多地将视野集中于已受过良好教育和熏陶的个体创
由于经济结构向轻型化转变、消费升级以及科技与金融的融合,商业银行从传统的高资本消耗、高成本投入的粗放重型经营模式向内涵集约式的轻型发展模式转变.近几年,商业银行纷
从分子结构上对PAAS的作用机理进行了理论分析,利用静态实验的方法对PAAS在化学清洗钝化预膜中的作用进行了研究,实验结果和理论分析都证明,在磷系钝化预膜工艺中加入一定量
20世纪90年代以来,企业跨国并购的发展势不可挡,跨国并购成为全球直接投资增长的主要推动力和全球经济发展中引人注目的焦点。随着我国加入世界贸易组织,国际跨国公司不断涌入我
在市场经济不断深化、企业竞争不断加强的今天,为了促进高新技术企业健康发展,增强高新技术企业税务筹划意识,进一步完善高新技术企业税务筹划体系,提升高新技术企业税务筹划方案
期刊
随着国内饲料企业竞争的不断加剧,饲料企业新的竞争机制正在逐步树立。目前,我国饲料企业正处于市场化阶段,市场主体日趋多元化,产品和品牌竞争更是日趋激烈。另外,随着我国加入WT
分布式网络爬虫作为一门新兴技术,已经应用在一些大型商业的搜索引擎系统当中,重点放在分布式技术在网络爬虫领域中,URL去重这一分布式网络爬虫的核心问题上,以基于内存的去
进入二十一世纪以来,我国提出了建设创新型国家的战略决策。胡锦涛总书记在2005年全国科技大会的讲话中指出,“我们要培育大批创新企业,扎实提高持续创新能力。”而国际技术转移