数据质量和数据清洗关键技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zzx2324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在归纳、总结了数据质量问题和数据清洗相关研究的现状的基础上提出一个可扩展的数据清洗框架的定义和一个检测多语言数据重复记录的综合方法,并以此为基础实现了一个数据清洗系统EDCF.具体地说,该文的贡献如下:1.提出了一个可扩展的数据清洗框架的定义.框架以术语模型、处理描述文件、共享库等概念和技术实现了模块功能的可定制,系统的开放性和可扩展性.2.提供了一种检测多语言数据重复记录的综合方法.该方法有效地解决了多语言数据记录的初步聚类问题;提出了一种适合于多语言数据的、基于计算编辑距离的有效的记录比较方法;并采用以聚类为元素的优先队列和代表记录相结合的策略,高效地聚类相似重复记录.从实验看,该方法具有时间复杂度小,检测精度高,能很好地适应数据规模的变化等优点.3.以该文提出的技术为基础,实现了一个可扩展的数据清洗系统EDCF.系统提供了方便、易用的可视化的数据清洗流程定义环境.并实现了典型的数据清洗任务模块,能够解决常见的数据质量问题.
其他文献
独立成分分析(Independent Component Analysis,ICA)是一种重要的特征提取技术。它所提取的特征之间是尽可能相互独立的,这不仅最大化的降低了特征之间的冗余信息,还更能反映数据
在数据仓库和商业智能(BI)解决方案中加快查询处理是一个急需解决的问题。使用汇总表或索引等机制可以有效提高查询速度,其中预定义查询的汇总表已具有较好的性能,但需要预先花
  本文在研究了基于IP地址的过滤技术和基于内容的过滤技术,并分析了两种技术的利弊后,设计了邮件过滤系统。系统采用了将基于IP地址过滤和基于内容过滤的方式,给出了具体的实
随着Web2.0以及社交网络的发展,数字相册成为应用广泛的基础服务,而增强数字相册的用户体验也变得尤为重要。具有某种主题的相册一般都带有一定的情感信息,例如:一组婚礼的相
人机交互界面的研究旨在为用户提供一种高效的人机通信方式,近年来随着计算机软、硬件的发展以及因特网的异军突起,传统的图形用户界面面临着新的挑战,而多模态人机交互界面
可变精度粗糙集合模型是经典粗糙集理论的一个扩展模型,它是在经典粗糙集合模型中引入了分类正确率β,其分类是部分的。本文首先比较全面地介绍了可变精度粗糙集合模型的基本
移动agent是一种新型的分布式计算模式。移动agent技术在分布式信息检索、主动网络、网络管理、电子商务、移动计算、主动电子邮件、工作流管理、个人数字代理PDA、动态负载
本文首先针对“内容计费”进行了理论分析和研究,提出了“以个性价值为核心”的内容计费趋势。并以下一代业务环境中运营商采用代计费的模式,设计实现内容计费平台原型,在该原型
高性能的微处理器和高速计算机网络的出现,使得把由大量CPU组成的计算系统通过高速网络连接在一起不仅成为可能,而且变得十分容易。网络作业管理系统就是一种建立于操作系统
集装箱口岸作业系统调度优化问题是具有复杂的约束关系,涉及到多个环节,是多目标的组合优化问题,其优化过程包括口岸作业系统的每一个环节、涉及到繁多的约束条件,每个环节或者约