【摘 要】
:
随着Spark SQL和HDFS在大数据结构化查询领域的广泛应用,数据查询速度有了明显的提升,但同时也暴露出了一些问题,如HDFS默认数据块大小设置不合理影响Spark SQL的查询效率、Spark SQL读取海量小文件效率低等。这些问题在处理以4G行业应用卡(以下简称4G行卡)数据为代表的通信数据时尤为明显。本文主要研究4G行卡数据在HDFS上的分布式存储,通过对数据在HDFS上的存储优化来提升
论文部分内容阅读
随着Spark SQL和HDFS在大数据结构化查询领域的广泛应用,数据查询速度有了明显的提升,但同时也暴露出了一些问题,如HDFS默认数据块大小设置不合理影响Spark SQL的查询效率、Spark SQL读取海量小文件效率低等。这些问题在处理以4G行业应用卡(以下简称4G行卡)数据为代表的通信数据时尤为明显。本文主要研究4G行卡数据在HDFS上的分布式存储,通过对数据在HDFS上的存储优化来提升Spark SQL的查询效率。研究内容包括动态设置HDFS数据块大小以及针对海量4G行卡小文件的处理,最后根据研究成果设计并完成了4G行卡数据ETL系统。本文的主要工作如下:1.针对4G行卡数据中较大的数据,在详细分析了其在HDFS上数据块大小对Spark SQL查询效率的影响后,提出了根据数据大小的不同动态设置HDFS数据块大小的方案。实验结果表面,相较于HDFS默认的配置数据块大小的策略,在动态设置方案下,同一类型的数据存储更加均衡合理,Spark SQL的查询效率更高。2.对于Spark SQL读取海量小文件效率低下的问题,从理论上分析了其原因,根据4G行卡数据的特征,改进本地合并存储模型对海量小文件进行合并和转换,然后将合并转换后的小文件按时间分区存储到HDFS的方案。对于小文件的合并方式,对比分析和测试了基于Java多线程和基于Spark进行合并这两种方案的性能。实验结果表明,在对海量小文件进行合并转换后,Spark SQL的查询效率有了显著的提升。3.本文根据上述的研究成果设计和开发了4G行卡数据ETL系统,根据4G行卡数据分析业务的需要,对各个功能模块进行了分析和实现,该系统也已经通过了客户的运行测试。
其他文献
针对医学生理学理论抽象、逻辑性强、学生感到枯燥难懂的特点,设计、制作了助教型多媒体课件用于课堂教学。助教型多媒体课件的使用对教学质量的提高起到了促进作用。
依托现代教学理论,针对组织胚胎学实习课特点,优化教学模式,突出学员实践内容,并采用现代教学手段,以更加人文化的方式,辅助理论课学习,提高整体教学质量.
目的探讨急性冠脉综合征患者血浆NT-proBNP(N末端脑钠肽前体)浓度和hs-CRP(血清高敏C反应蛋白)水平,与急性冠脉综合征患者近期预后的关系。方法采用荧光免疫抗原抗体结合法和免疫
社会主义的核心价值观得到当代大学生的认同是一个系统结构,非常复杂。本文分析了当前社会主义核心价值观及其认同教育的研究现状,通过认同、认同教育概念等分析社会主义核心
传统的排队模型的分析,是建立在随机过程之上,对系统进行诸如队长、等待时间的分布、忙循环等的性能分析。而在过去的几十年中,掀起了从经济学视角研究排队论的热潮。从经济
提出了一种基于电光调制器的非线性光电延时反馈超混沌复用通信系统.与传统混沌通信系统不同,其混沌波形不是由激光器产生,而是由电光调制器产生,该系统具有非线性维数高、易
目的探讨经后路减压内固定治疗胸腰椎骨折伴脊髓损伤的治疗效果。方法1999年3月~2008年7月对胸腰椎骨折80例,经后路减压内固定。结果共治疗80例,随访3~18月。神经功能恢复情况:
利用TruboC编制程序进行效价测定数据处理。实际应用表明,运用间便、输入参数,灵活,具有一定的能者价值。由此提示药学工作者可胜利现代化的手段解决生产及研究中的问题。
本文介绍部分医药数据库在因特网上的分布情况,以便药学工作者利用因特网及其所提供的服务,较为快捷地寻找到同的数据库。
心血管的组织内肾素-血管紧张素系统在心血管疾病的病理发展中起着重要作用。血管紧张素Ⅱ(AⅡ)是肾素-血管紧张素系统的关键成分,其除对心脏有短期的正性变力作用外,还有长期的致肥