基于任务合并的并行大数据清洗过程优化

来源 :计算机学报 | 被引量 : 0次 | 上传用户:himail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能降低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,作者发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现文中提出了一种新的优化技术——基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,文中提出的策略可以有效提高数据清洗的效率.
其他文献
不同塔梁结合情况下的桥塔适宜刚度体系的研究对三塔悬索桥具有重要的意义。以泰州长江公路大桥为依托背景,针对塔梁固结体系、塔梁漂浮体系、塔梁半漂浮体系,通过改变中塔刚
吾师魏承昌为首批潍坊市名老中医药专家经验继承指导老师,从医40余载,擅长内科,尤精脾胃,笔者有幸随师学习,受益匪浅。现将魏师辨证论治上消化道反流性疾病的临床经验介绍于此,以飨
行政管理效率是高职院校发展过程中至关重要的因素。面对当前高职院校行政管理效率不高的现状,实行AB岗工作制可以有效解决这一问题。但AB岗工作制的有效运作还需要明确职责
症状、证候和疾病是中医诊断学的基本概念和主要内容,其客观化、标准化、规范化的研究及实施,对于提高中医诊疗水平和发展中医学术均具有重要意义。本文对这方面的研究概况作
目的探讨醋酸-美蓝双重染色在慢性萎缩性胃炎病理分型诊断中的价值。方法 92例经确诊为慢性萎缩性胃炎的患者,随机分为醋酸-美蓝双重染色组(32例)、美蓝染色组(30例)和盲法活检组
媒体如果为了自己的张力、为了所谓的新闻价值,肆意抹黑这个社会,那最终将会降低这个社会所有成员的责任尺度。看到一个电视节目,讲的是中国法治理念几十年来的变化与进步,有
<正>近日,交通运输部与上海市、江苏省、浙江省、安徽省人民政府联合印发《关于协同推进长三角港航一体化发展六大行动方案》(以下简称《方案》),深入贯彻落实习近平总书记关
自三大改造以来,中国已牢固地确立了公有制的主导地位,改革开放三十年的实践又使有中国特色的社会主义市场经济基本确立,公有制与市场经济的结合不应当是二者的简单堆砌,而应遵循
对大棚温室耗水量进行了分析和计算。利用温度作为主要参数提出灌溉模型,在此基础之上给出灌溉方案,用于指导农业生产。
内部控制是单位规模管理手段和管理水平发展到一定程度的必然产物,同现代化管理相适应。当前,内部控制审计尚属于新鲜事物,缺乏实践经验,在探索中人们对其的理解和认知还不够