一个可扩展的数据清洗系统

来源 :第18届全国数据库学术会议 | 被引量 : 0次 | 上传用户:notfeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在给数据挖掘这样的应用准备数据的过程中,面临着一系列数据清洗问题.然而要把数据清洗过程做得很灵活并不那么简单,已有的工具往往过于依赖特定的应用.该文提出并实现了一个可扩展的数据清洗框架.它以术语模型、处理描述文件、共享库等概念和技术实现了模块的高度独立和系统的可扩展性,并提供了一个可视化的流程定义环境.
其他文献
2014年底,我国60岁以上的老年人口总数达到2亿1200万左右,约占总人口的16%,预计到2050年左右,我国老年人口将达到全国总人口的1/3。中国作为一个发展中国家,经济并不发达,部分地区
期刊
本文就关联规则采掘系统(ARMiner)进行了研究,它可以不受限于某个特定的应用领域,也可通过概念层次来体现领域知识的使用,具有一定的灵活性,它运用了兴趣度和包含负项的语义
本文研究大型数据库WEB信息发布的一些关键技术和极具优势的解决方案,并将该成果成功地实践于军队档案事业管理信息网络系统,使其部分信息实现了网上发布.
在响应时间要求和很高的环境中,必须得到一个多项式时间近似算法,本文基于传统的方法和半结构化查询自身的特点,提出了半结构化语义缓存的查询贪心重写方法,满足了XML查询引
在新时代下,我国需立足基本国情,坚持实事求是、具体问题具体分析等原则,通过不同路径探索各地区特色小镇规划建设中面临的问题,探究可行的思路与方法,优化创新特色小镇规划设计,提
本文结合目前国内外对半结构化和XML物化视图增量维护的研究,提出了一种兼顾效率和易操作性的XML物化视图增量维护的算法,能够直接对XML文档进行处理,保持XML数据格式的特点,
在现代社会发展体系中,房地产开发项目占据着十分重要的地位,通过构建现代化房地产开发项目规划设计架构,可以提升房地产开发项目的针对性、科学性、实效性,满足现代房地产开发项
城市轨道交通是城市交通体系中必不可少的构成体系。轨道交通对于目前社会的应用价值很高,现有的交通规划依旧有一些不合理之处,特别是轨道交通与城市规划之间还存在着许多的问
本文提出了充分利用XML的结构信息与链接信息的文档结构链接向量模型SLVM,并以K-means聚类方法为例,具体讨论了利用SLVM模型,计算文档相似度聚类中心的新算法.
农村土地利用规划对特殊的历史任务有效承担,利用这一规划可以更好管理乡村空间,并且高度统一社会各个区域的建设活动。对项目合理指引,管理用地和建设规模,形成严格的建设要求,迫