基于数据挖掘的数据清洗及其评估模型的研究

来源 :北京邮电大学 | 被引量 : 17次 | 上传用户:cchongzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在今天的大数据时代,数据的价值越来越受到各界广泛地关注,如何利用数据清洗的方法解决数据中存在的质量问题,成为充分挖掘数据知识、充分利用数据价值的前提。数据质量问题包括但不限于数据的准确性、完整性、唯一性、时效性和一致性,这些问题或提高发现数据知识的难度,或降低数据的价值,或影响人们正确的判断,甚至导致人们发现错误的知识而不自知,给国家和公司造成无法挽回的损失。本文从统计学方法和基于密度的聚类方法两个方面使用数据挖掘的方法解决数据清洗问题,着重解决数据清洗中的异常数据检测问题,达到提高数据质量的目标。论文的研究工作主要体现在以下几个方面:1、调查国内外数据清洗技术相关的理论知识,阐述数据清洗在不同应用场景的定义,总结当前生流的数据清洗方法和工具以及数据质量评估指标。2、总结了数据挖掘和异常检测的方法、应用场景以及数据挖掘一般的步骤,为后面利用统计学方法和密度聚类的方法进行数据清洗进一步奠定了理论基础。3、实现基于牛顿-拉夫逊潮流算法的WLS (Weighted Least Square)状态估计算法,估计电力系统稳定状态下的电压幅值和电压相角,提出基于卡方检验的异常检测方程,最后结合实际案例说明该方法检测异常数据的能力。4、提出基于密度聚类数据清洗框架,该框架包括缺失值处理、特征选择、密度特征提取和异常检测四个部分,能够对一般数据尤其是无标签的多维数据进行精细化的清洗,并且返回聚类的结果。5、提出查准率和查全率指标来评估数据清洗方法的性能,结合实际的GPS轨迹数据清洗案例,评估DBSACN算法、LOF算法与传统算法各自的性能与效率。
其他文献
家庭农场是在小农户家庭经营基础上实现农业农村现代化的重要选择。突出抓好家庭农场发展,不仅可以为乡村振兴战略提供主体支撑,巩固和扩大脱贫攻坚成果,还是稳定和完善农村
<正> 中国农村社会,长期处于生产要素极少流动的超稳定平衡状态。农村十年改革,打破了这种万马齐喑的封闭格局,诸生产要素开始逐步融入商品经济轨道。数以亿计的农业劳动力的
狠抓产品标准备案依法杜绝无标生产兴安县技术监督局近年来,我局在标准化监督管理工作中,依靠县委、县人民政府和上级技术监督部门的重视和支持,把加强企业产品标准备案管理,依法
横向经济联合是新旧经济体制转换过程中的必然产物.在新旧体制交替,横向经济联合大发展的新形势下,如何进一步搞好国民经济计划的分级管理.加强和改善国民经济的宏观管理职能。是
新形势下的企业标准化广西医疗器械厂廖家骏社会主义市场经济的建立,我国关贸总协定缔约国地位的即将恢复,经济改革的新形势,使企业不但面对国内市场的激烈竞争,还必须面对国际市
<正>1概况庙子坪岷江特大桥位于都汶高速公路E合同段,桥梁起讫桩号分别为K17+487.00和K18+ 927.22,桥梁全宽22.5m,桥梁采用2×50m(简支T梁)+125m+220m+125m(连续刚构)+17×50
会议
随着国家节能减排政策的深入和空调能效的升级,对空调“心脏”即旋转式压缩机能效要求也越来越高。本文通过对泵体效率影响因素的分析,为压缩机提效提供明确方向及有效措施,
回顾学术史,南水北调移民精神研究发轫于2010年以前的部分新闻报道,2010年之后特别是党的十八大以来,南水北调移民精神研究在数量和质量上都得到了较大的提升。南水北调移民
协作制造,或者叫C制造,是一种在企业内部任何地方与正确的人、正确的地点、正确的系统进行实时通信的能力。使用FactoryTalk,可以读取和使用车间实时数据,每年为罗克韦尔自动