论文部分内容阅读
在给数据挖掘这样的应用准备数据的过程中,面临着一系列数据清洗问题.然而要把数据清洗过程做得很灵活并不那么简单,已有的工具往往过于依赖特定的应用.该文提出并实现了一个可扩展的数据清洗框架.它以术语模型、处理描述文件、共享库等概念和技术实现了模块的高度独立和系统的可扩展性,并提供了一个可视化的流程定义环境.