数据清理工具C-Cleaner的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:angus000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文论述了数据清理在数据仓库及KDD应用,特别是客户关系管理中的重要性,指出 了原始数据中可能存在的各种问题,介绍了目前国外的一些数据清理工具,阐述了数据清理的一般过程与方法.分析了中文非结构化数据清理与西文数据清理相比的一些不同之处,提出了如何将数据挖中的技术及统计的方法应用到中文非结构化数据清理过程中的思想例如将关联规则发现、聚类分析等高效实现算法运用到重复记录的检测与消除步骤中;对频繁模式进行统计,将去掉频繁模式后的特征词作为客户名称匹配时的依据;以及当发生数据一一致时,对冲突各值的可靠程度进行评估后,由计算机自动选择最有可能正确的值等.该文针对一个具体的基于客户信息的应用给出了有关的算法,对其复杂性和有效性作了分析和测试.
其他文献
Internet使得全球范围的资源共享成为可能,从而使资源发布成为其最重要的应用之一,已经得到越来越多的重视.然而关于发布本身的研究却很少,以至于在这个领域缺乏统一的规范.
该文首先介绍了专家系统及专家系统开发工具的产生、发展过程及现状,并从知识表示、知识获取、知识组织、知识库维护、推理机制和解释机制等六个方面详尽地论述了实现专家系
现代社会中计算机网络在人们的生活中扮演着越来越重要的角色.而随着利用计算机网络的各种业务的飞速发展,传统的共享式网络的带宽利用率过于低下,过窄的通信带宽这一瓶颈成
随着web技术的不断发展,基于web的应用越来越流行,针对web的攻击也愈加频繁,因此web应用的安全问题正引起广泛关注。web应用遭受安全攻击的来源之一就是用户输入,为了防范web
目前,网络信息资源飞速增长,除了文本信息之外还包含相当数量的视频数据,人们越来越关心如何对视频资源进行有效的存储和管理,使得用户能有效的进行检索与浏览,而这正是数字
虚拟环境交互式漫游系统需要以交互式帧率,实时动态绘制用户在任意观察位置和任意观察方向上看到的场景图像,由于表示虚拟环境模型的多边形数目通常远远超过目前图形系统以交
计算与通信技术的高速发展加速了互联网应用在人们日常生活中的普及,而在数据中心内构建高效可靠的数据中心应用系统是支持高质量互联网应用的重要保障。数据中心中主要包括
该文简单回顾了挖掘关联规则问题,提出了一种基于较小超集的高效的关联规则挖掘算法以及基于时空调节的关联规则挖掘算法.基于较小超集的高效关联规则挖掘算法仅估对数据作三
该文结合作者在国家九五重点科技攻关项目:"软件工程环境(青鸟CASE)工业化生产技术及系统(JB/SEIMS)"中"多媒体课件开发平台与环境"子专题的工作实践,以软件工程和计算机辅助
随着模型驱动软件工程在工业界的推广,建模已经成为软件开发过程中的常规活动,模型成为重要的工件,是涉众用于交流和讨论、指导开发、测试和维护以及文档化的依据之一。模型