利用数据沿袭改进数据清理质量的机制的研究

来源 :西南师范大学 西南大学 | 被引量 : 0次 | 上传用户:wlxqzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术及网络技术的发展,互联网已经将大量的数据源联结在一起,形成一个巨大的、分布式异构数据库环境。越来越多的应用需要集成已结构化的异构数据源,然而,现存的大量数据源仍是半结构化甚至还未进行结构化。如何得到格式一致、高质量的数据是提升各种应用服务质量所面临的主要问题。 数据清理是一种有效的改进数据质量的方法,被广泛运用于决策支持系统和数据仓库系统,但在实际运用中仍有较多的不足。首先,用于数据清理的ETL工具的执行具有明显的单向性,无法对数据清理的中间结果进行回溯;其次,不能对数据清理所得最终结果给出合理解释;最后,缺乏相应的用户交互机制,使用户无法及时对数据清理程序进行必要的调整。 针对以上不足,本文在数据清理过程中引入数据沿袭机制。我们所提出的数据沿袭机制允许对数据清理过程中每一个步骤的中间结果进行回溯,并提供交互数据修改功能,以及时对数据清理算法及各种外部函数的参数进行修正,最大限度地提高数据清理的质量。 为此,我们首先构造了五个可追溯操作,通过定义各个操作的详细语法,为每个操作所得结果给出合理的解释;同时也为进一步构造由多个操作组成的数据清理程序奠定基础。 接下来的数据沿袭机制通过传递各个操作的标识值,实现了对构造于可追溯操作基础上的数据清理程序的追踪,从而提供了对数据清理程序执行过程及结果的分析和解释功能;同时利用交互式数据修改功能以及时纠正和改进数据清理过程中所出现的异常,并对数据修改过程中所涉及到的增量执行模式及操作冲突进行了充分地分析与研究。 由于数据清理所要处理的数据量非常大,在纠正异常时引进机器学习技术以及对聚类方法与增量执行模式之间关系的进一步研究是未来工作的重点。
其他文献
随着越来越多的信息由数据库管理系统来管理,数据库安全就成为数据处理中的重要问题。存取控制机制是保障数据库安全的一种主要手段。本课题着重讨论了在安全数据库管理系统S
《安徽广播电视》从1989年第4季度起改由安徽省广播电视厅和安徽广播电视学会联合主办。该刊原是省厅总编室主办的。新的《安徽广播电视》作为省厅的机关刊物及及省学会的会
读者欣然接受,是新闻报道的至高境界。对形势教育的宣传报道来说,尤其如此。怎样做到这一点?最基本的应该是——把真实情况告诉人民群众。在今年春节中共中央、国务院举行的
移动机器人是机器人研究领域中的一个重要分支,它集人工智能、智能控制、信息处理、图像处理、检测与转换等专业技术为一体,跨计算机、自动控制、机械、电子等多学科,己成为
为了了解艺术类专业学生心理健康状况,并提供本底资料,我们运用SCL-90量表对丽水师范专科学校的207名音乐、美术专业学生进行测试并分析比较。表明:艺术类专业学生的九个因子
Web网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息。进入21世纪后,随着网络的普及,电子商务的发展越来越多的引起研究者们的关注,期望在这种新型的商务
"企业人力资源管理与决策支持系统"由企业人力资源管理信息系统与企业人力资源决策支持系统组成.企业人力资源管理信息系统是利用现代网络数据库技术与ASP技术架构的一个基于
当今网络技术的飞速发展和移动设备日益广泛的应用,推动了移动无线接入技术的研究.IETF提出的移动IP技术使移动节点无需改变其原有的IP地址,便可以随时随地保持在网络上的连
随着电子元器件质量和可靠性的大幅度提高,同步发电机及同步电动机晶闸管励装置得到广泛的应用.由于电力电子产品的工作条件比较“艰苦”,因而故障的发生率相应地也会增多,针
在复杂应用系统的数据库设计实现过程中,数据库的逻辑模式设计、物理设计和封锁优化是几个重要的关键点.数据库的逻辑模式设计需要考虑的是使逻辑模式既满足应用的需求、减少