基于Spark Streaming的可靠稳定流处理模块设计与实现

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:coniji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着互联网技术和移动互联网设备的发展,网络中产生的数据日益加大。业内知名公司如腾讯、百度和阿里每天都会产生TB级数据,面对如此大规模数据,过去采用基于Hadoop的离线处理架构,能让用户对数据的认知速度达到小时级别。然而随着公司业务的发展,对实时数据的分析需求不断增大,大数据实时流处理技术的出现很好的解决了实时数据处理的问题,让用户能达到秒级的分析实时数据,但目前主流的实时处理系统却不能很好的处理网络流量波动的情况,当网络流量突然爆发,系统很容易陷入不稳定状态,导致处理延迟增加,然而很多生产场景对数据可靠性要求比较强,如交易数据,需要数据可靠的传输。针对以上问题,本文主要提出基于Spark Streaming的可靠稳定流数据传输模块,主要对模块的可靠性和稳定性两个方面进行设计:1、在可靠性方面,以Flume为输入数据源,通过对Spark Streaming源码中的Sink端和接收数据的Receiver端进行改造,增加了数据校验功能,对接收到的batch数据先进行条数检验,再进行校验码校验,达到对数据完整性的验证的目标。2、在稳定性方面,首先对该实时流处理模块在map、reduce和join负载情况下进行分析,找到数据处理时间(processing time)和数据分片时间(batch interval)的关系,发现map和reduce的工作负载曲线是线性关系,而join的工作负载曲线是非线性关系。根据这个特性,提出了基于斜率的动态自适应batch interval调整算法,让实时流处理模块在面对不同工作负载和数据流量的情况下自适应调整batch interval,从而达到保持流处理模块稳定的目标。通过对模块的设计和实现,提高了流处理模块在不同场景和数据流突发情况下的稳定性和可靠性,降低数据处理延迟。此外该设计方法相对于传统停掉服务从而手动调整batch interval的方法有较大实际价值,显著提高了流处理系统自动化运维能力。
其他文献
高红十在《关于散文的散文》中写道:“大手笔散文家,必须有不寻常阅历,他的一生应该有几场大迁移、大沉浮、大悲欢”。十六岁高中毕业的毕淑敏,禁不住雪山的召唤,离开北京,穿上军装
期刊
以“产业兴旺、生态宜居、乡风文明、治理有效、生活富裕”为总要求,乡村振兴战略将实现对新农村建设的发展与超越。
在考古发掘现场,考古工作者经常会遇到一些非常脆弱的文物和遗迹,如彩绘漆器的碎片、糟朽的木质遗迹、灰化的丝绸、易碎的化石、脆弱的墓葬壁画等,如果不在发掘现场对这些文物
报纸
为掌握南方湿热山区典型流域(韩江)的极端气候事件变化规律和趋势,利用中国气象数据服务共享网和广东省气象局提供的韩江流域及附近13个台站1965—2014年最高气温、最低气温
中外电影史上涌现出各个不同类型的英雄,他们被赋予时代的、民族的特质,他们在影坛上大放光彩,梳理这些英雄的轨迹,辩析其与时代具有血肉联系的文化密码,无疑对我们的电影创
随着政府调控力度加大,房地产行业的利润在逐步萎缩,不少房地产企业也意识到了通过企业的内部管控、不断降低成本,方能增强企业在市场中的竞争力、提高企业的经济效益。本文
通过Mn离子注入Mg掺杂GaN 外延层制备了铁磁性GaN∶Mn薄膜,利用拉曼散射和光致发光谱研究了退火温度对薄膜微结构和光学特性的影响.拉曼谱测试显示由离子注入相关缺陷引起了
本文通过病理语音代表煤工尘肺等疾病状态下的语音进行声学参数分析,提出梅尔S变换系数特征来描述变异语音信号的非平稳特性。针对声带形状变异造成的语音变异,提出非线性特
在重庆谈判的语境中,中共改提“参加政府”的实际含义是:包括国民党在内的各党各派,不分执政党、在野党,“共同参加政府”,并实行毛泽东《论联合政府》提出的施政纲领,成立“联合政
二代证在日常生活和工作中的应用非常之广,无论是在银行领域、航空领域、铁路通行,还是在政府管理、学生毕业、证照拍摄等公共事务管理中都需要使用二代证进行办理和验证,其