Spark分区数据放置方法研究与优化

来源 :内蒙古农业大学 | 被引量 : 1次 | 上传用户:hyb916720hui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的快速发展及进步,人们的生活方式也由大数据时代的到来发生了巨大的变化,不但衍生出许多的新型行业,也使大数据技术渗透到各行各业中,这不仅促进了社会的高效发展也为人们的生活带来了便捷,但与此同时所产生的海量数据如何进行快速的处理也是不可忽视的问题。据英特尔公司预测,全球数据总量在2020年将达到44ZB,而中国产生的数据量将达到8ZB,大约占据全球总数据量的五分之一。所以现今需要处理的数据越来越多,迫切需要我们对海量的数据做出快速且有效的处理,而Spark作为快速的计算引擎已成为主流的大数据处理平台。Spark的高效一方面依赖于内存计算本质,另一方面与分区带来的并行度有密切关系,但是在数据重复率较大的情况下,使用Spark默认哈希分区算法处理数据时,将导致每个分区中的数据量不均匀,并且在极端情况下,某些分区拥有RDD的全部数据,所以分区的倾斜会导致大数据集群系统资源分布不均匀、作业执行效率低下等问题。本文的主要研究内容和工作集中在以下几个方面:(1)设计并实现了优化哈希分区的三种哈希分区器,分别为随机数分区、随机数+二次分配、相邻位置三种分区方式,通过实验验证在对不做任何内容要求的普通文本文件输入数据进行分区分配后,作业执行效率与默认HashPartition方式相比明显提高了。(2)通过不同数据倾斜度比较,三种优化分区器解决了默认哈希分区器对于key重复量大时的分区倾斜问题,并且优化过的分区器能使倾斜的数据较均衡的分配到各个分区中,从而提升了计算效率。研究结果表明,三种优化的分区器对数据倾斜问题提出了优化的解决方案,也提高了系统的运行效率,对于Spark分区中数据放置方案的改进具有重要的启发意义。
其他文献
随着3D技术的快速发展,3D电影和电视在日常生活中越来越重要,并吸引着全球关注。但是在3D图像的获取、传输和存储过程中,会引入不同程度和类型的失真,造成立体图像内容失真,
无线传感器网络是通过多个传感器节点监视、感测和处理节点数据,向用户传播节点信息的分布式无线网络。通常部署在无基础设施,无人看守的恶劣环境,由于其部署快速、耐抗毁性
本文分别研究了在阈下信号和阈上信号刺激下,离子通道噪声对神经元新陈代谢能量损耗的影响,同时研究了神经元对温度的适应性。首先简单介绍了神经元基本的动力学性质和神经元
随着我国的综合国力与国际影响力不断提高,许多国家也以更加积极的姿态加强与中国多方面的联系。作为世界各国的汉语爱好者学习汉语、了解中国的重要窗口之一,孔子学院在世界范围内越来越被人们所熟知,影响范围越来越大。与此同时,汉语教师志愿者们不断地远赴世界各个国家,在当地教授汉语与分享中华优秀文化。由此相关,汉语教师志愿者的跨文化适应问题引起了不少学者的关注。迄今为止,很多学者已经围绕这一主题进行了不少相关
国际中文课堂是教师讲授知识、学生学习汉语的主要平台,也是师生进行跨文化交际的主要语境。在语境的制约下,教师需要巧妙地借助言语行为,帮助其构建不同的语用身份,以便能够使用恰当的教学方法与有效的课堂管理策略,推动各个教学环节的有序开展。该研究以陈新仁教授的语用身份理论和Verschueren的顺应理论为理论依据,以《国外汉语课堂教学案例》中教学语境及师生之间交际使用的话语为参考语料,对国际中文教师语用
Hashtag是社交平台中常用的一种主题标签标注方式,它可有效地提高信息组织和信息检索的效率,从而提高社交平台的便捷性和易用性。标注Hashtag是一个繁琐费时的过程,因此社交
基于稀疏表示的方法在图像超分辨率重建中表现良好,但是传统的稀疏表示独立考虑图像块之间的稀疏性,会导致重建图像损失部分纹理结构。本文提出一种基于局部结构相似与稀疏表
初中班主任是班级的管理者,是班级的灵魂,更是中学生们成长过程中的人生导师。由此可见,初中班主任工作是初中教育中相当重要的一项工作。初中班主任的职业幸福感如何,对学生能否健康成长和全面发展起着至关重要的作用。换言之,只有幸福的初中班主任,才能培养出具有幸福感的孩子。因此,关注初中班主任的职业幸福感,提升初中班主任的职业幸福感就显得尤为重要。提升班主任的职业幸福感,最终还是为了学生的发展,为了教育事业
精神分裂症作为一组重度精神类病症,会对个人社交行为、现实感知及社会经济发展造成恶劣影响,这种复杂疾病致病因素的不确定性对其研究有着重大阻碍,而单核苷酸多态性(Single
光纤预警系统因其抗干扰能力强、高准确率的优点,在长距离实时监测的管道保护领域中得到了广泛应用。目前,普遍使用基于相位敏感光时域反射计的分布式光纤传感器感知外界的入