论文部分内容阅读
随着通信技术及网络技术的发展,互联网已经将大量的数据源联结在一起,形成一个巨大的、分布式异构数据库环境。越来越多的应用需要集成已结构化的异构数据源,然而,现存的大量数据源仍是半结构化甚至还未进行结构化。如何得到格式一致、高质量的数据是提升各种应用服务质量所面临的主要问题。 数据清理是一种有效的改进数据质量的方法,被广泛运用于决策支持系统和数据仓库系统,但在实际运用中仍有较多的不足。首先,用于数据清理的ETL工具的执行具有明显的单向性,无法对数据清理的中间结果进行回溯;其次,不能对数据清理所得最终结果给出合理解释;最后,缺乏相应的用户交互机制,使用户无法及时对数据清理程序进行必要的调整。 针对以上不足,本文在数据清理过程中引入数据沿袭机制。我们所提出的数据沿袭机制允许对数据清理过程中每一个步骤的中间结果进行回溯,并提供交互数据修改功能,以及时对数据清理算法及各种外部函数的参数进行修正,最大限度地提高数据清理的质量。 为此,我们首先构造了五个可追溯操作,通过定义各个操作的详细语法,为每个操作所得结果给出合理的解释;同时也为进一步构造由多个操作组成的数据清理程序奠定基础。 接下来的数据沿袭机制通过传递各个操作的标识值,实现了对构造于可追溯操作基础上的数据清理程序的追踪,从而提供了对数据清理程序执行过程及结果的分析和解释功能;同时利用交互式数据修改功能以及时纠正和改进数据清理过程中所出现的异常,并对数据修改过程中所涉及到的增量执行模式及操作冲突进行了充分地分析与研究。 由于数据清理所要处理的数据量非常大,在纠正异常时引进机器学习技术以及对聚类方法与增量执行模式之间关系的进一步研究是未来工作的重点。