对我国企业数据清理的研究

来源 :企业技术开发·下半月 | 被引量 : 0次 | 上传用户:z19910620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:数据清理不仅是进行数据预处理的首要步骤,还是企业建立数据仓库的前提。文章首先介绍了数据出现质量问题的原因。对数据清理的一些基本内容以及当前进行数据清理主要方法进行概述。最后对企业进行数据清理的未来发展进行了展望。
  关键词:企业数据;质量;清理
  中圖分类号:TP311.13文献标识码:A文章编号:1006-8937(2011)20-0078-01
  
  1数据质量问题
  企业所掌握的大量数据中,数据质量的高低是一个关键性问题。因为数据质量是创建数据仓库以及进行数据集成工作中的关键。如果企业没有深刻地对数据进行有效地分析,没有发现所掌握的信息数据所存在的问题,盲目进行开发、集成,造成的后果不仅是后来的数据仓库创建失败的经济损失,更有可能造成严重的企业决策失误,还有可能导致企业面临倒闭的危险。从语义角度而言,数据是事实及意义的结合体。常见质量问题的数据主要的特征包括:不完整数据、错误数据和重复数据三种。
  2企业数据清理基本概述
  数据清理是构建数据仓库和信息数据挖掘的必要因素。数据清理在不同的应用领域的要求是不完全相同的,很难有一致的定义,但总的来说,所谓数据清理就是:将杂乱无章的数据转换成所需要的正确可靠的数据。因此,企业进行数据清理目的就是检测所掌握的数据中存在的错误和不一致性,删去或修正这些数据,以提高所掌握的数据的质量,为企业决策提供有效地帮助。
  2.1数据清理步骤
   ①数据分析。用恰当的统计方法对企业收集来的大量一手资料数据信息以及二手资料数据信息进行分析,以求最大化地开发挖掘数据资料的功能,发挥数据的作用。通过对数据的分析,可以把隐藏在大量杂乱无章的数据中的数据信息集中、提取、提炼出来,以找出所研究对象的内在规律,并研究找出合适的清理算法。
  ②数据检测。根据预先设定的清理规则及相关数据清理算法,对数据进行检测,例如数据是否满足字段域、业务规则,或检测记录是否重复等。
  ③对掌握的数据进行修正。数据修正是指通过人工或软件自动的修正检测到出现错误的数据或对数据进行的处理重复记录。结合学者们的观点,按照对数据清理的实现方式与范围,数据清理可分为四种:其一,人工实现对数据的修正。其二,通过编写专门的应用程序来自动的进行对数据的修正。其三,解决某类特定应用领域的问题,例如按照概率统计学原理查找异常的数值记录,对姓名、地址、邮政编码等数据,这是目前研究得较多的领域,也是应用最广泛、最成功的一类。其四,对与特定应用领域无关的数据进行清理。这一部分的研究主要集中在清理数据的重复记录上。
  2.2当前解决数据异常的检测方法
  基于契比雪夫定理的统计学方法,这种方法可以随机地选取样本数据进行分析。优点是加快了检测速度,但是这种方法不足的地方是以牺牲准确性作为代价的方法。模式识别法,基于数据挖掘和机器学习算法来查找异常数据,这种方法用了关联规则算法。基于距离的聚类方法,此类方法重点在于它的评测标准为欧几里德距离或 Edit 距离,以此发现数据集中的重复记录。增量式的方法,如果数据源允许,可以随机的方法获取元组,输入一个随机的元组流。
  3数据清理未来发展趋势
  数据清理是提供正确信息的前提,而正确信息又是提供企业正确决策的必备参考。将来数据清理将有以下几个发展趋势:未来转换、检测将尽可能的会具有通用性,而且不是每次依赖大量的编程工作。未来要在现有的算法和功能基础上,完成设计相应的数据清理系统,使他具有相对的通用性。未来通用性主要需要实现的技术有数据标准化、术语化,通用的接口标准,即通用的过程描述语言。研究设计一种可交互并且具备可扩展性的数据清理系统也将是未来数据清理的发展趋势。可交互性支持用户通过系统反馈的检测统计图表,实时地修改转换过程,避免用户与系统的隔离,可扩展性更加推进数据清理工作的完成。所以未来将二者有机结合将是数据清理未来的发展趋势。
  4结语
   数据清理不仅是有效地进行信息挖掘前提,而且是进行数据集成、数据变换、数据归约的基础以及首要工作。数据清理的质量如何,直接影响到数据仓库中的数据信息对企业决策的支持水平。当前,数据清理可以说是企业信息化建设中的一项非常重要任务。因此,数据清理对现今企业来说至关重要。
  
  参考文献:
  
  [1] [加]韩家炜,堪博著.范明,孟小峰译.数据挖掘[M].北京:机 械工业出版社,2007.
其他文献
[目的]采用HPLC法对一种嘧啶胺类新农药进行分离测定研究。[方法]对HPLC的最佳检测波长、流动相进行筛选,并对2-甲硫基-4-氨基-5-嘧啶甲醛和2-甲硫基-4-氨基-5-嘧啶甲醇的进
摘要:建筑工程预算与造价管理是为了更好地对建筑工程进行先期的整体性把握和控制,为建筑工程中其他工作环节的顺利进行提供保证,一个科学合理的建筑工程预算与造价管理机制是在建筑工程实施中不断完善和发展的,是能够切实有效发挥作用的。本文旨在通过对目前我国在建筑工程预算与造价管理方面的现状和存在的问题进行概括、分析,从而探究我国的建筑工程预算与造价管理体制,并提出相应的改进措施。  关键词:建筑工程预算;工
摘要:施工安全管理是建筑工地施工管理的重要组成部分,只有保证施工的安全,才能保证施工的正常进行,也才能保证施工的质量。文章将就如何保证施工安全进行管理方面的探讨。  关键词:建筑施工;安全管理;措施原则  中图分类号:TU714文献标识码:A文章编号:1006-8937(2011)14-0167-01    施工现场的安全管理,主要目标是保证人的行为与物的状态得到安全的控制,以便落实管理单位的安全
摘要:企业文化是一个企业在发展过程中长期形成的共同理想、基本价值观、作风、生活习惯和行为规范的总称,是企业在经营管理过程中创造的具有本企业特色的精神财富的总和,对企业成员有感召力和凝聚力,是企业长期文化建设的反映。文章首先分析了企业文化建设的意义,说明其重要性,剖析现阶段优秀企业成功的原因,指出了人力资源管理与企业文化建设的核心“以人为本”,并提出了“用远景目标激励人,用先进思想培育人,用先进理念
对2009年7月17日夜间山东半岛北部的特大暴雨过程进行了总结分析。环流形势分析表明:副高边缘暖湿气流、冷空气和低涡切变线的共同影响,是造成此次半岛北部特大暴雨的主要原因,
通过分析1988~1992年间和田降水样品的D和18O,建立了该地区的大气降水方程,并与全国及全球降水线性方程进行对比,揭示该降水方程的特征。结果表明,和田降水来源复杂;大气降水
随着社会的发展,我国的教育事业随之有了很大发展。由于国家经济发展与政策制定问题影响农村教育事业的发展,农村中教师与农民自身的素质对农村教育事业的发展造成制约,现如今教
11t吊斗车作为一种专用运输车辆,在目前密闭运输的要求下,为其设计了一种篷布顶盖。文章阐述了篷布顶盖总体设计,结构原理、结构形式及其主要参数的计算。
摘要:工程竣工结算直接关系到一个施工单位的效益利益与建设单位建设项目投资的控制,对于建筑工程竣工结算工作是一项意义重大的工作,本文结合工程实际,对建筑工程竣工结算的编制进行了详细的阐述。  关键词:建筑工程;竣工结算;编制方法  中图分类号:TU723.3文献标识码:A文章编号:1006-8937(2011)10-0177-01    1建筑工程竣工结算的概念及编制依据  对于一个单项工程,当全部
[目的]了解无瓣海桑害虫绿黄枯叶蛾(Trabala vishnou Lefebure)的生物学特性。[方法]采用野外调查、林间套笼观察和室内饲养观察相结合的方法,对广西钦州康熙岭红树林自然保护