大数据清洗系统中优化技术的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wukuiyuxin66666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着IT技术的发展,信息数据充满着现代生活的每一个角落,大数据时代的来临更使得这些数据更为耀眼。人们疯狂地从数据中汲取营养的同时,数据质量问题也逐渐暴露出来,例如数据冗余、数据不一致、错误数据、缺失数据等。因此数据质量在大数据时代显得尤为重要,海量信息的数据清洗与容错管理系统应运而生。现有的对海量数据处理的信息系统一般都运行在时下最流行的开源框架Hadoop上,但是由于各种各样的原因,往往效率低下。数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗。MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能的降低。因此本文的目的是对并行数据清洗过程进行优化从而提高效率。本文做出了如下工作。首先,通过研究我们发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现本文提出了一种新的优化技术——基于任务合并的优化技术。针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标。第二,本文提出的FLI三层体系让我们从一个系统优化的视角去分析软件系统,和基于任务合并的优化技术一道,建立了一整套从系统分析到具体实施的数据清洗优化理论。第三,本文针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化。实验结果表明,本文提出的策略可以有效提高数据清洗的效率。
其他文献
根癌农杆菌介导的水稻遗传转化影响因素主要有农杆菌菌株和载体、水稻基因型、转化受体、共培养条件、选择标记基因和转化程序等。对影响农杆菌介导水稻基因转化效率的以上各
结合实际,探讨了智慧公园在城市中的建设和发展。
在2004年艺术品拍卖会上成交价最高的瓷器是什么呢?天球瓶,玉春壶,还是梅瓶?都不是,而是一件笔洗。在香港佳士得2004年春季艺术品拍卖会上,一件明永乐青花内外底龙戏珠纹棱口洗,以40
报纸
本文主要讨论幂级数、边际分析、弹性分析等数学模型在经济中的应用。
义务教育阶段开展职业启蒙教育有助于培养学生的职业倾向和意识,树立良好的职业意识.现阶段初中、小学开展职业启蒙教育遇到瓶颈,一方面学生、家长的重视程度有待加强,另一方
大学生勤工助学意义重大,具有社会稳定、知识拓展、社会化、经济资助、心理脱贫等复合功能。面对岗位供不应求、管理难以到位和亟等加强、认识有待提高、或勤工助学流于勤商
铀矿冶设施退役治理是一项政策性强、公众敏感、环境要求高、治理周期长、涉及面广、耗资大的环境安全系统工程。本文根据国外的经验和我国多年的退役治理工作的实践,对铀矿
为了探讨包膜复混肥的应用效果。采用多点试验,研究了包膜肥对油菜产量、养分积累以及土壤养分形态的影响。结果表明,与普通复混肥相比含量,全量包膜复混肥能够极显著提高油
文章运用班杜拉的自我效能感理论探究了导致幼儿出现"我不会"现象的原因,分析了影响幼儿自我效能感的几个因素,并提出了相应的策略。
文章首先介绍了水利工程渠道防渗技术应用的重要意义,以及造成渠道渗透问题的原因。在此基础上重点分析有效的渠道防渗透施工技术,从土料、混凝土、砌石三方面来进行。最后对