基于数据仓库的数据清洗技术研究

被引量 : 25次 | 上传用户:bigboss555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展使组织的管理者进行决策分析时对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境——数据仓库。但是从异构的数据源导入数据仓库的数据中会存在各种质量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓库和数据挖掘领域的一个重要课题。本文对数据清洗的知识进行了全面的描述,介绍了数据清洗的概念和国内外研究现状。对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析。重点对重复记录清洗所用到的技术和各种算法进行了深入的研究与实验分析。在重复记录清洗中,首先介绍了重复记录清洗的相关知识和基本流程,然后分别就流程中各个步骤进行了深入的研究,对各种算法进行了复杂度分析,并针对部分算法中的缺陷进行了改进。主要工作大致包括:在预处理步骤中,本文基于越能最大限度的聚集相同记录,离散不同记录的属性其权重应该越大的思想分配属性的权重。对常见的字段匹配算法Levenshtein距离、Smith Waterman距离、Jaro_Winkler距离、TI similarity做了详细的算法说明分析。在数据库级上对重复记录进行聚类的步骤中,就基于“排序-合并”思想的排序邻居法、多趟算法、优先队列法进行了详细的讨论和实验分析,并改进了传统的排序邻居法,实验结果表明,改进的排序邻居法在相同召回率的情况下,时间复杂度优于传统的算法。此外对canopy聚类方法进行了算法分析,并对优先队列算法和canopy聚类方法在重复记录检测方面的效率和性能也作了相关的实验分析。
其他文献
电力设备是电力系统重要组成部分,其稳定运行对于提升电力服务质量具有重要意义。电力设备的运行质量与其安装、调试工作密切相关,为此,需注重电力设备安装及调试工作控制,注
阐述了供应链与采购之间的关系,分析了采购成本及其构成,结合供应链管理环境下采购管理的特点,研究了降低采购成本的准时制采购机制及价值分析方法。
目的:无创呼吸机在临床上有着重要的应用价值,而在实际的应用中做好无创呼吸机湿化效能的护理对于提高临床应用价值具有重要意义,本文主要探讨的就是提高无创呼吸机湿化效能的
随着我国证券市场的不断发展,上市公司经营业绩已经成为投资者、债权人、政府管理部门、企业管理者乃至普通员工共同关注的问题。尤其对于投资者来说,准确地了解上市公司的经
金银花(Flos Lonicerae)是忍冬科(Caprifoliaceae)忍冬属(Lonicera)植物忍冬(Lonicera.japonica Thunb.)的干燥花蕾,其主要化学成分为绿原酸类和黄酮类,具有抑菌、消炎、抗氧
发展全科医学教育,培养高素质的全科医学人才是我国医药卫生体制改革与发展的迫切需要。澳大利亚是较早开展全科医学教育的国家之一,已经建立了较为完备的全科医学教育体系,
简述了国内外对地球圈层沉积盆地CO2的研究现状和发展趋势。指出了南海及邻区CO2局部富集的特征,分析了对南海北部莺-琼盆地天然气中CO2的研究状况。认为CO2是一种宝贵的矿产
随着经济的高速发展和社会的不断进步,人们对环境的关注程度越来越高。滨水城市的滨水区无论在经济还是在生态建设上一直是一个城市发展最快,最活跃的地区。滨水城市对滨水区的
反倾销是世贸组织赋予进口国自我保护的一项合法权利,近20年来反倾销始终是国际经济研究的热点。外国对华反倾销案件也持续升温,我国企业频频遭受欧美等国的反倾销指控,反倾
物探技术近年来取得了飞速发展,工程物探技术在铁路路基检测应用也越来越广泛。通过介绍工程物探技术方法,并实例工程物探技术在杭深线某段路基检测的应用,对工程物探技术在