基于Spark的大数据清洗框架设计与实现

来源 :科学技术创新 | 被引量 : 0次 | 上传用户:zhq2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据技术是以数据分析为核心,但是大数据清洗是解决大数据问题的关键,也是大数据处理的基础和前提。鉴于此在文章的研究中基于Spark设计了一套大数据清晰框架,其原理是充分利用Spark分布式计算能力将弹性分布式数据集的操作封装成大数据清晰的任务单元,通过形成较为完整的大数据清晰流水线完成大数据清晰。通过一系列的实验证实基于Spark的大数据清晰框架能够有效的降低大数据清晰的成本,并且有效的促进了大数据清洗性能水平的提升,为大数据处理应用技术的发展提供了有效的保障,奠定了坚实的基础。
其他文献
近几年来,随着“人工智能”、“大数据”等技术的发展,Python已经成为最热门的计算机程序设计语言之一。Python具有简单、易学、开放源代码、面向对象、可扩展性等特点,可与C、C++等语言混合编译,它在数据分析、数据挖掘、人工智能、web开发等领域发挥着巨大的潜能。Python作为高校的计算机程序设计课程,它拥有丰富的标准库和第三方库函数,本文主要介绍jieba库的中文分词技术以及WordCloud库的词云制作技术,通过案例分析可以轻松生成形态各异的词云图片,词云图将文本中出现频率较高的关键词放
岩土工程BIM技术是利用一系列软硬件设施进行勘察数据管理、勘察三维建模及应用的一项技术,通过三维模型集成地形地貌、工程环境、地质构造、岩土构成、钻探信息、岩土参数等勘察信息,从而利用BIM模型进行场地分析、岩土设计、剖切出图、工程量统计、信息查询与管理等应用。本文针对岩土工程勘察BIM技术,分别从BIM技术目标、技术路线、应用成果三方面加以论述,对岩土工程BIM技术问题进行了研究分析,以期为日后提
本文初步认为新投产消失模铸钢生产线产出铸件裂纹现象的主要原因:增碳、夹渣与气孔。通过不同的工艺手段合理安排实验,通过详实的数据对比与分析得出设想是正确的。找到了避免裂纹问题的主要生产手段,并结合生产实际明确了以后工作研究重点。