论文部分内容阅读
摘要:数据清理不仅是进行数据预处理的首要步骤,还是企业建立数据仓库的前提。文章首先介绍了数据出现质量问题的原因。对数据清理的一些基本内容以及当前进行数据清理主要方法进行概述。最后对企业进行数据清理的未来发展进行了展望。
关键词:企业数据;质量;清理
中圖分类号:TP311.13文献标识码:A文章编号:1006-8937(2011)20-0078-01
1数据质量问题
企业所掌握的大量数据中,数据质量的高低是一个关键性问题。因为数据质量是创建数据仓库以及进行数据集成工作中的关键。如果企业没有深刻地对数据进行有效地分析,没有发现所掌握的信息数据所存在的问题,盲目进行开发、集成,造成的后果不仅是后来的数据仓库创建失败的经济损失,更有可能造成严重的企业决策失误,还有可能导致企业面临倒闭的危险。从语义角度而言,数据是事实及意义的结合体。常见质量问题的数据主要的特征包括:不完整数据、错误数据和重复数据三种。
2企业数据清理基本概述
数据清理是构建数据仓库和信息数据挖掘的必要因素。数据清理在不同的应用领域的要求是不完全相同的,很难有一致的定义,但总的来说,所谓数据清理就是:将杂乱无章的数据转换成所需要的正确可靠的数据。因此,企业进行数据清理目的就是检测所掌握的数据中存在的错误和不一致性,删去或修正这些数据,以提高所掌握的数据的质量,为企业决策提供有效地帮助。
2.1数据清理步骤
①数据分析。用恰当的统计方法对企业收集来的大量一手资料数据信息以及二手资料数据信息进行分析,以求最大化地开发挖掘数据资料的功能,发挥数据的作用。通过对数据的分析,可以把隐藏在大量杂乱无章的数据中的数据信息集中、提取、提炼出来,以找出所研究对象的内在规律,并研究找出合适的清理算法。
②数据检测。根据预先设定的清理规则及相关数据清理算法,对数据进行检测,例如数据是否满足字段域、业务规则,或检测记录是否重复等。
③对掌握的数据进行修正。数据修正是指通过人工或软件自动的修正检测到出现错误的数据或对数据进行的处理重复记录。结合学者们的观点,按照对数据清理的实现方式与范围,数据清理可分为四种:其一,人工实现对数据的修正。其二,通过编写专门的应用程序来自动的进行对数据的修正。其三,解决某类特定应用领域的问题,例如按照概率统计学原理查找异常的数值记录,对姓名、地址、邮政编码等数据,这是目前研究得较多的领域,也是应用最广泛、最成功的一类。其四,对与特定应用领域无关的数据进行清理。这一部分的研究主要集中在清理数据的重复记录上。
2.2当前解决数据异常的检测方法
基于契比雪夫定理的统计学方法,这种方法可以随机地选取样本数据进行分析。优点是加快了检测速度,但是这种方法不足的地方是以牺牲准确性作为代价的方法。模式识别法,基于数据挖掘和机器学习算法来查找异常数据,这种方法用了关联规则算法。基于距离的聚类方法,此类方法重点在于它的评测标准为欧几里德距离或 Edit 距离,以此发现数据集中的重复记录。增量式的方法,如果数据源允许,可以随机的方法获取元组,输入一个随机的元组流。
3数据清理未来发展趋势
数据清理是提供正确信息的前提,而正确信息又是提供企业正确决策的必备参考。将来数据清理将有以下几个发展趋势:未来转换、检测将尽可能的会具有通用性,而且不是每次依赖大量的编程工作。未来要在现有的算法和功能基础上,完成设计相应的数据清理系统,使他具有相对的通用性。未来通用性主要需要实现的技术有数据标准化、术语化,通用的接口标准,即通用的过程描述语言。研究设计一种可交互并且具备可扩展性的数据清理系统也将是未来数据清理的发展趋势。可交互性支持用户通过系统反馈的检测统计图表,实时地修改转换过程,避免用户与系统的隔离,可扩展性更加推进数据清理工作的完成。所以未来将二者有机结合将是数据清理未来的发展趋势。
4结语
数据清理不仅是有效地进行信息挖掘前提,而且是进行数据集成、数据变换、数据归约的基础以及首要工作。数据清理的质量如何,直接影响到数据仓库中的数据信息对企业决策的支持水平。当前,数据清理可以说是企业信息化建设中的一项非常重要任务。因此,数据清理对现今企业来说至关重要。
参考文献:
[1] [加]韩家炜,堪博著.范明,孟小峰译.数据挖掘[M].北京:机 械工业出版社,2007.
关键词:企业数据;质量;清理
中圖分类号:TP311.13文献标识码:A文章编号:1006-8937(2011)20-0078-01
1数据质量问题
企业所掌握的大量数据中,数据质量的高低是一个关键性问题。因为数据质量是创建数据仓库以及进行数据集成工作中的关键。如果企业没有深刻地对数据进行有效地分析,没有发现所掌握的信息数据所存在的问题,盲目进行开发、集成,造成的后果不仅是后来的数据仓库创建失败的经济损失,更有可能造成严重的企业决策失误,还有可能导致企业面临倒闭的危险。从语义角度而言,数据是事实及意义的结合体。常见质量问题的数据主要的特征包括:不完整数据、错误数据和重复数据三种。
2企业数据清理基本概述
数据清理是构建数据仓库和信息数据挖掘的必要因素。数据清理在不同的应用领域的要求是不完全相同的,很难有一致的定义,但总的来说,所谓数据清理就是:将杂乱无章的数据转换成所需要的正确可靠的数据。因此,企业进行数据清理目的就是检测所掌握的数据中存在的错误和不一致性,删去或修正这些数据,以提高所掌握的数据的质量,为企业决策提供有效地帮助。
2.1数据清理步骤
①数据分析。用恰当的统计方法对企业收集来的大量一手资料数据信息以及二手资料数据信息进行分析,以求最大化地开发挖掘数据资料的功能,发挥数据的作用。通过对数据的分析,可以把隐藏在大量杂乱无章的数据中的数据信息集中、提取、提炼出来,以找出所研究对象的内在规律,并研究找出合适的清理算法。
②数据检测。根据预先设定的清理规则及相关数据清理算法,对数据进行检测,例如数据是否满足字段域、业务规则,或检测记录是否重复等。
③对掌握的数据进行修正。数据修正是指通过人工或软件自动的修正检测到出现错误的数据或对数据进行的处理重复记录。结合学者们的观点,按照对数据清理的实现方式与范围,数据清理可分为四种:其一,人工实现对数据的修正。其二,通过编写专门的应用程序来自动的进行对数据的修正。其三,解决某类特定应用领域的问题,例如按照概率统计学原理查找异常的数值记录,对姓名、地址、邮政编码等数据,这是目前研究得较多的领域,也是应用最广泛、最成功的一类。其四,对与特定应用领域无关的数据进行清理。这一部分的研究主要集中在清理数据的重复记录上。
2.2当前解决数据异常的检测方法
基于契比雪夫定理的统计学方法,这种方法可以随机地选取样本数据进行分析。优点是加快了检测速度,但是这种方法不足的地方是以牺牲准确性作为代价的方法。模式识别法,基于数据挖掘和机器学习算法来查找异常数据,这种方法用了关联规则算法。基于距离的聚类方法,此类方法重点在于它的评测标准为欧几里德距离或 Edit 距离,以此发现数据集中的重复记录。增量式的方法,如果数据源允许,可以随机的方法获取元组,输入一个随机的元组流。
3数据清理未来发展趋势
数据清理是提供正确信息的前提,而正确信息又是提供企业正确决策的必备参考。将来数据清理将有以下几个发展趋势:未来转换、检测将尽可能的会具有通用性,而且不是每次依赖大量的编程工作。未来要在现有的算法和功能基础上,完成设计相应的数据清理系统,使他具有相对的通用性。未来通用性主要需要实现的技术有数据标准化、术语化,通用的接口标准,即通用的过程描述语言。研究设计一种可交互并且具备可扩展性的数据清理系统也将是未来数据清理的发展趋势。可交互性支持用户通过系统反馈的检测统计图表,实时地修改转换过程,避免用户与系统的隔离,可扩展性更加推进数据清理工作的完成。所以未来将二者有机结合将是数据清理未来的发展趋势。
4结语
数据清理不仅是有效地进行信息挖掘前提,而且是进行数据集成、数据变换、数据归约的基础以及首要工作。数据清理的质量如何,直接影响到数据仓库中的数据信息对企业决策的支持水平。当前,数据清理可以说是企业信息化建设中的一项非常重要任务。因此,数据清理对现今企业来说至关重要。
参考文献:
[1] [加]韩家炜,堪博著.范明,孟小峰译.数据挖掘[M].北京:机 械工业出版社,2007.