【摘 要】
:
随着计算机网络和数据库技术的飞速发展以及人们获取数据手段的多样化,我们所拥有的数据量急剧增加。但是基于劣质数据的决策是不可信的,数据质量问题是制约数据仓库应用的“
论文部分内容阅读
随着计算机网络和数据库技术的飞速发展以及人们获取数据手段的多样化,我们所拥有的数据量急剧增加。但是基于劣质数据的决策是不可信的,数据质量问题是制约数据仓库应用的“瓶颈”之一。数据仓库是数据挖掘和决策分析的基础,数据清洗就是纠正数据错误、降低决策风险的重要一环。该文介绍了数据质量的概念和按其类型进行的分类,并概述了数据清洗的原理和方法步骤。给出了基于规则的交互数据清洗模型,并对各部分进行了定义。最后详细阐述了数据清洗过程中的关键问题重复记录的识别和异常值的检测问题。在现有方法的基础上给出了进一步的优化,提出了增量式的重复记录识别方法,最后对其方法进行了测试和验证,在数据模式与匹配规则不变的前提下,增量式重复记录识别方法大大节省了执行时间与空间的开销。
其他文献
以太湖流域畜禽养殖业污染治理工作为基础,测算江苏省太湖流域畜禽养殖污染物产生量,总结归纳5种操作性强并广泛应用的畜禽粪便典型处理模式,并分析各种模式的优缺点和适用范围,
本文报告用原子力显微镜(AFM)测量金刚石精密加工表面的微观结构,获得了用机械抛光法与热化学抛光法得到的表面纳米级形貌.前者呈直线纹理,反映出金刚石磨料的刮削机理,后者
冗余控制是WSN(无线传感器网络)的重要问题。冗余控制可以有效地提高WSN的效率和延长其生存时间。论文提出一种概率估计的冗余控制算法(PERCA)。PERCA算法根据邻居节点的个数和信
支气管哮喘(bronchial asthma,简称哮喘)是全球慢性疾病发病和死亡的一个主要原因,近年对哮喘发病机制的研究有了新的进展,认为哮喘是一种慢性炎症,是由气道慢性炎症病变引起的支气
儿童画的辅导,其方法要科学、合理,依照儿童心理及生理状况进行,决不可以用成人的绘画标准来教导儿童。若过早地让儿童接触成人画,不但会限制儿童的思维、想象,而且会使儿童
伴随着经济的迅速发展,市场竞争的激烈性也在不断提升。而企业为使自身在市场竞争中能够生存下来,必须引进更多的综合型人才。因此在就业压力不断增加的环境下,技工院校作为
现阶段,在我国社会快速发展和进步的过程中,国家的经济和科技水平也得到了良好的提升,信息技术成为人们工作、生活和学习的基础保证,也正是在这样的背景下,校园教育工作开始改革,高
针对渗碳淬火齿轮在磨削加工中出现磨削裂纹的现象,本文从热处理和磨削加工两个方面分析了裂纹产生的原因,并由此提出了预防裂纹产生的措施.
教师期望效应一直是教育学家和心理学家研究的重点。罗森塔尔和雅各布森曾对学生进行了一个智力测验,然后随机抽取20个学生,告诉教师这是班级里最具发展潜力的学生,要求教师注意
目的:研究前列腺癌骨转移18F-脱氧葡萄糖(18F-fluorodeoxyglucose,18F-FDG)PET/CT代谢参数与血清肿瘤标志物的相关性。方法:回顾性分析2012年1月—2014年12月于山东大学附属山东省