【摘 要】
:
大数据技术之中核心是数据分析,但在真正解决大数据问题之时,三分之二的工作量都是在大数据清洗,大数据清洗是开始大数据处理的基础,所以,高效的大数据清洗技术不仅能有效地
论文部分内容阅读
大数据技术之中核心是数据分析,但在真正解决大数据问题之时,三分之二的工作量都是在大数据清洗,大数据清洗是开始大数据处理的基础,所以,高效的大数据清洗技术不仅能有效地提高大数据质量,也可以加快整体大数据处理的流程。本论文设计实现了一套基于Spark的大数据清洗框架,原理是充分利用Spark分布式计算能力,将弹性分布式数据集(Resilient Distributed Datasets, RDDs)的操作,封装成大数据清洗的任务单元,通过组合,串联成完整的大数据清洗流水线,实现大数据清洗。同时提出了多叉树计算流结构,优化大数据清洗流程。该框架能够重用大数据清洗功能组件,灵活配置清洗流程,充分利用Spark的高速计算性能,实现高可扩展性,满足实际环境中复杂的大数据清洗需求,彻底解决大数据清洗问题,加快整体大数据处理流程。实验证明,基于该大数据清洗框架,能够极大降低清洗流程的耦合性,利用已有的清洗单元,灵活地实现复杂的大数据清洗,极大降低了大数据清洗的成本,最关键的是,利用Spark将大数据清洗提升到了一个新的性能水平,促进了大数据处理应用技术的发展。
其他文献
随着榆次区社会经济以及旅游业的发展,生态庄园旅游提到了重要议事日程。当前如何搞好与深化榆次区生态庄园旅游发展以及破解其发展过程中的困难与问题,对提升与推进榆次区旅
目的研究重组溶葡萄球菌酶对金黄色葡萄球菌生物被膜的体外清除作用。方法使用硅橡胶膜片建立金黄色葡萄球菌生物被膜的体外模型;使用超声震荡—活菌计数法作为金黄色葡萄球
分析了业务提供平台(SDP)的产生背景,全球SDP的发展,详细介绍了爱立信在ISMP实施,SDP的演进。
近年来,“过劳”“过劳死”等词汇频繁出现在报纸、网络等各类媒体报道中,随着我国现代化、工业化和信息化水平的不断提高,“过劳死”这种产生于发达国家的现代疾病已经走进
最近数十年见证了国内机动化水平的大幅提高,也导致了依然严峻的道路交通安全形势。同时,大量交通事故数据被记录下来,成为交通安全研究的宝贵资源。利用回归模型分析事故数
级联全控H桥式多电平变换器取消了传统功率单元级联式多电平变换器输入端体积庞大、接线复杂、价格昂贵的工频移相变压器,并以其高网侧功率因数、低器件耐压、能量双向流动、
自1990年第一篇使用协同过滤算法进行推荐的论文诞生以来,推荐系统在工业界和学术界已经有了广泛的发展。传统的推荐系统算法主要使用的基于协同过滤的推荐算法,基于上下文感
在对标准普尔评级的10大潜力新药入选原因的分析的基础上,提出明确新药的功能价值分类,同时汇总了四种新药功能价值的评估方法,为价值工程在新药研发中的应用提供了理论支持
<正>格列奈类药物是一类非磺酰脲类促胰岛素分泌剂,作用于胰岛β细胞上三磷酸腺苷(ATP)依赖的钾离子通道的相应受体,直接刺激胰岛素释放,主要用于降低餐后血糖水平,并使两餐
现代数据中心内往往承载着差异化的数据业务和复杂的应用程序,一个稳定而可靠的资源调度器在数据中心日常运维中显得尤为重要。统一管理数据中心和云端资源的调度器可以被独