大数据平台计算架构及其应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:telecom_god0221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,云计算、物联网、移动互联网等新兴技术的发展与应用,使人类快速进入大数据时代。随着大数据的到来,分布式数据处理技术不断被提出,业界涌现了各式各样的分布式大数据处理框架,从最初的Hadoop及其生态系统,到基于内存计算的Spark、Storm等。目前,虽然关于大数据离线批处理分析的研究与应用已经相当成熟,但越来越多的领域提出了对快速、海量的流数据进行实时分析和快速响应的要求。其中,在流数据查询优化、网络流量监控、网络安全、数据压缩等领域,基数计算具有重要的应用价值,已有的基于概率统计原理的基数估计算法层出不穷,但这些算法需要通过扫描历史静态数据才能进行基数统计。而流数据具有持续、快速、实时等特点,不可能先进行持久化再处理分析,因而传统的基数估计算法并不能应用在大数据流处理中。因此,本文针对以上问题,调研目前流行的Storm和Spark Streaming实时分布式流处理平台和现有的基数估计算法,针对实时的流数据去重处理,设计和实现了基于流数据实时分析平台的基数估计改进算法,主要研究工作如下:首先,论文对目前典型的批处理技术Hadoop、内存计算Spark以及流计算Storm的平台架构、数据计算模型以及框架的安全性进行研究分析,并总结三种大数据处理技术的异同点,以及分析讨论了流数据处理中的关键技术和流平台基数估计的重要性。其次,在大数据平台和传统基数估计算法研究的基础上,结合传统基数估计算法无法适用大数据流式计算的问题,提出了一种基于流平台的Hyper LogLog算法应用模型,该模型从Kafka消息系统中消费流数据,在Storm和Spark Streaming处理引擎中进行基数计算。然而,流数据具有无界、快速、量大等特点,传统的基数估计算法根本无法处理,因此引入窗口数据采样技术,对传统的HyperLogLog算法进行并行化设计。最后,通过实验分析比较了Storm和Spark Streaming两种流平台上实现的HyperLogLog并行化算法的精度、延迟和吞吐量。结果发现流平台实现的HyperLogLog并行化算法在保证精度的前提下,性能大大提高,其中,Storm平台上实现的HyperLogLog并行化算法数据处理时延要低于Spark Streaming,但吞吐量方面小于Spark Streaming。
其他文献
目的研究慢性间歇性低氧对大鼠血压和交感神经活动的影响。方法将雄性SD大鼠随机分为正常对照组和慢性间歇性低氧模型组(CIH),每组20只,分别采用无创套尾法监测大鼠尾动脉收缩压(S
本试验建立了同时测定饲料中5种抗生素含量的高效液相色谱法。试验采用梯度洗脱,使金霉素、氯霉素、红霉素、罗红霉素、青霉素得到较好的分离;柱温30℃,流速为1.0mL/min,进样量20μ
建立了动物饲料中竹桃霉素、红霉素、吉他霉素、交沙霉素、罗红霉素、泰乐菌素6种大环内酯和林可霉素、克林霉素2种林可胺抗生素的超高效液相色谱-电喷雾串联质谱(UPLC-ESI-MS
光解水制氢是人们解决未来能源危机的一种重要构想,构建高效的光电化学池是实现这一构想的重要途径,而光驱动水氧化的顺利进行是实现这一过程的关键.本文总结了近年来基于分
农民专业合作社联合社是促进农业产业现代化发展进步的趋势,以广西田阳县供销合作社联合社为案例研究对象,分析了联合社的发展是合作社获取潜在的组织利润和增强市场竞争力的
<正>班主任工作的重要性不言而喻,其工作质量直接影响着学校育人目标的实现。但是,由于班主任工作事务繁杂、强度大、压力大,因而很多班主任的幸福感较低,自愿担任班主任的教
<正> 韩非是先秦法家思想的集大成者。在战国末期激烈的阶级斗争中,他全面地总结了前期法家及各国新兴地主阶级实行社会变革、反对奴隶主复辟的经验教训,提出了一条比较完整
目的探讨应用VSD联合穿支血管蒂螺旋桨皮瓣修复足踝部创伤的临床观察与护理方法。方法2008年1月~2012年12月应用VSD联合穿支血管蒂螺旋桨皮瓣修复足踝部创伤40例,用生物透性
河北梆子是我国北方代表性的地方剧种之一,历经沧桑、几度兴衰,以其独特的艺术个性和丰厚的美学内涵滋润了一代又一代华夏儿女,2006年被国务院正式批准为第一批国家级非物质
大数据的发展不仅促进了数据分析技术的创新升级,而且加速了科学、教育、文化、卫生等各领域深化改革的步伐,给人们的思考和行为方式带来重大影响。在大数据时代,人们更容易