数据质量分析中若干问题的探讨

来源 :东南大学 | 被引量 : 0次 | 上传用户:wangzan1616
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着人类进入到信息社会,人们对信息系统的依赖程度也越来越深。当信息系统中的数据量以指数级别增长的同时,数据的质量却没有得到足够的重视。尤其是近几年在经济全球化的影响下,产品和服务的竞争变得空前激烈,从而对数据提出了更高的质量要求。虽然数据的质量问题已经给人类的生产和生活造成了重大的影响,但是该领域的研究目前尚处于萌芽状态,一个完整的理论体系架构尚未建立起来。在诸如“什么是数据质量”这样最基本的问题上,研究者们尚未取得共识。本研究便是在这样的背景下,结合实践中遇到的几个方面的具体问题,作了一定程度的探讨。 按照国际上目前通用的分类方法,数据质量分析可以分为两类,即背景相关和背景无关的数据质量分析。前者指的是,根据数据所应该满足的业务规则,对数据的质量情况进行分析;后者则是在相关的业务规则无法获得时,对数据的质量情况进行分析。本文的研究为了解决企业数据所面临的具体问题,在背景相关和背景无关两种类型的分析方面均有所涉及,其内容主要包括如下几个方面: 一、背景相关的数据质量分析研究 数据质量分析标准在税务行业中的应用:选择了一些被广泛接受的数据质量评价标准,并依照每条标准的定义,对某税务局的数据质量情况进行了具体的分析。针对分析过程中发现的问题,并提出了相应的解决方案。 二、背景无关的数据质量分析研究 1.中文环境下的错误短语识别:对于数据集中的字符型数据,特别是含有中文的短语中所蕴含的错误进行识别。针对两类主要的中文输入法,拼音输入法和笔画输入法的特点,对可能产生的错误类型进行了分析。为了发现与输入法无关的其它类型的错误,采用了计算编辑距离的技术进行探测。 2.利用统计特征探索数据表之间的关系:数据表之间的相互关系在数据迁移过程中有着重要的作用。而实践中这样的约束关系常常没有在数据库中显式地进行定义,从而容易导致数据不一致的问题。本研究探讨了如何在数据质量不高的情况下,通过分析数据的统计特征,找出数据表之间可能存在的相互关系。研究中特别运用了统计学中的极端反应检验理论。 3.基于模式识别的数据质量分析:分布模式反映了数据的本质属性。研究首先探讨了如何对数据符合的模式进行识别;在此基础上,根据数据与模式的偏离程度甄别出可疑数据项;根据对可疑数据项的进一步分析,识别出错误数据。 本研究是以一个具体的数据质量分析项目为研究背景,对分析过程中所运用的若干技术进行了较为全面的阐述。实践证明,上述技术的综合运用对于协助企业发现数据问题,提高数据质量,起到了重要的作用。
其他文献
图像分割作为数字图像处理技术基础而重要的环节,有着广阔的应用和研究前景。图像分割技术能够按照某一特征把图像分成若干具有一定意义的、互不交叠的区域,是由图像处理前进到
伴随着信息技术的普及,网络在我们的日常工作和生活中扮演着越来越重要的作用。但是伴随纷繁复杂的网络应用的涌现,各应用间缺乏一个统一的身份验证系统所带来的负效应,也越来越
随着网格技术的发展,世界上很多大学、公司及研究机构开发了很多的网格平台系统。然而,网格标准还不完善,大多网格平台之间不能顺利的实现互操作;另一方面,随着网格应用逐渐
ScienceWord是目前广泛应用于教育、科研等领域的科技文档字处理软件。为了实现ScienceWord基于XML的开放文档格式ScienceML,必须对文档元素如文字、图形、公式、化学结构式
目前语音通信在众多领域已得到越来越广泛的应用,而语音在通信过程中不可避免地会受到来自周围环境、传输媒介引入的噪声、通信设备内部的电噪声以及其它讲话者的干扰等等。这
基于图象处理的车辆牌照自动识别是计算机视觉与模式识别技术在智能交通领域的重要应用,是实现交通管理智能化的重要环节。论文对虚拟仪器环境下的车辆牌照自动识别系统结构及
无线传感器网络(Wireless Sensor Networks,WSNs)是指由大量的静止或移动的传感器节点以自组织和多跳的方式构建的无线网络,已经应用于众多场合,如环境监测、目标跟踪、交通
随着信息技术飞速发展,数据库技术被广泛应用到各行各业。人力资源管理的信息化是管理部门的基本职责,它能够提高人事管理人员的工作效率,更好地为人事工作服务。 人力资源管
随着计算机网络的不断发展,网络已经成为人们日常生活不可缺少的部分,被广泛应用于教育、科研等领域,但是由于互联网的开放性其自身的弱点和缺陷也暴露出来,越来越多的问题成为制
随着信息化时代的高速发展,人类身份识别对于人们的日常生活变得越来越重要,例如在访问控制系统的权限识别、金融交易系统的授权管理、电子商务的账号管理等等方面。绝大多数