重复和不完整数据的清理方法研究及应用

被引量 : 16次 | 上传用户:buyezhicheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化产业的不断推进,企业积累的数据越来越多,激增的数据背后隐藏着重要信息,对企业作出正确、科学的决策,提高竞争力是至关重要的。为满足决策分析的需要,数据仓库应运而生。在数据仓库构建过程中,由于各种原因,数据仓库中含有重复的、不完整的以及异常的数据,即数据存在质量问题。高质量的数据是决策支持的前提条件,因此,为提高数据质量,对数据进行清理是非常必要的。本文先论述了数据预处理的相关知识,分析了数据清理的必要性以及国内外研究现状,并介绍了数据质量和数据清理的相关理论,阐述了数据清理的定义、原理与基本流程及相关清理技术。重点对相似重复记录检测及不完整数据清理方法做了深入研究,对相关算法进行了改进,并在此基础上设计了一个数据清理原型系统。本文主要工作如下:(1)在重复记录清理中,提出一种基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;再根据等级法计算各字段的权值,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法。实验表明该方法具有较好的检测精度和时间效率。(2)在不完整数据清理中,提出一种基于小波聚类加权1-NN的不完整数据清理方法。首先将数据集分成完整记录集和不完整记录集,然后对完整记录集利用小波聚类算法进行聚类,形成不同的子类,再判断不完整记录集中记录的可用性,利用加权1-NN方法找到不完整记录的最近邻子类,最后填充不完整记录缺失属性值。实验表明该方法具有较好填充效果。(3)在分析和研究多种清理框架基础上,设计一种数据清理原型系统。该系统具有开放的算法库、规则库与评估库,包含了丰富的清理算法和大量的清理规则,提供了多种质量评估指标。从分析体系结构各个模块的主要功能及其应用,体现了该系统具有良好的可扩展性、灵活性和交互性。
其他文献
在教育改革的大潮中,社会需要更多的优秀教师为教育事业的发展作出贡献,正如邓小平同志所说:“一个学校能不能为社会主义建设培养合格人才,培养德智体全面发展,有社会主义觉
本文以现代汉语中的限制类范围副词作为研究对象,对它们的句法语义、共现连用、内部差异和虚化过程四个问题进行了全面的分析考察。由于篇幅所限,我们不可能对所有的限制类范
分幅相机、条纹相机等研究超快现象的诊断设备是激光核聚变、Z-pinch等惯性约束聚变(ICF)研究的重要工具,在X射线激光、等离子体物理、强场物理等研究中有着重要作用,可完成
广西合浦是我国主要的砂质高岭土产区,资源储量高达5.71亿吨,能够生产优质的陶瓷级、填料级高岭土产品。本研究中的合浦某高岭土伴生矿物赋存状态比较复杂,分选难度较大,因此
本文根据“国家西部1:5万地形图空白区测图工程”(简称西部测图工程)对空间数据质量检查的客观要求,从空间数据质量理论出发,分析了空间数据质量的影响因素,提出了一套应用西
党的十六届三中全会明确提出:“坚持以人为本,树立全面、协调、可持续的发展观,促进经济社会和人的全面发展。”其中,坚持“以人为本”是科学发展观的核心和本质。教育作为社
提高慢性心衰患者的自我护理行为是阻止患者频繁再入院、降低医疗费用并提高其生活质量的一个有效途径,而目前国内外研究显示慢性心衰患者的自我护理行为总体上处于中等或偏
塔里木盆地海相油气具有多期成藏、晚期调整的特点,早期形成的油气藏普遍受到后期不同程度的调整改造,以晚喜马拉雅期调整改造最为强烈.目前发现的古生界海相油藏主要为晚海
对<老子>思想的研究,历来重视的是它的反道德性,而对其道德实践思想却没有给予足够的重视.本文则以为:<老子>不仅首创了"不言之教"的道德教化,强调因循个体的特征来成就个体,
随着近年来审计失败案件的频发,政府对审计行业监管的作用越来越受到关注。文章基于证监会行政处罚公告,对受罚事务所与上市公司客户进行配对,研究了处罚公告对受罚事务所与