流式大数据处理系统性能基准测试工具

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong476
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,由于各种传感设备和社交网络的兴起,对海量高速数据进行实时分析的需求不断提升。国外咨询机构对企业信息化的调查也显示,70%的企业存在对流式数据实时处理的需求。流式处理模式较之批式处理更加复杂,因而诞生了流式处理系统,如Storm、Flink等。但是在分布式集群环境下,流式处理系统更容易产生吞吐量下降、延迟增大、反压频繁出现和系统资源受限等各种性能问题。当前,流式处理系统的评测基准在业界还没有成熟的统一标准,现今各基准测试也存在着流式数据源考虑欠缺、应用特征覆盖少、评价指标单一等问题。  针对这些不足,本论文首先总结了流式处理模式的五大数据特征和四大计算特征。数据特征包括实时性、无限性、时序性、动态变化性与难重放性;计算特征包括计算的实时性、计算的有界性、计算的有序性和运行的高可靠性。接着基于流式处理模式的特征,设计并实现了一个流式大数据处理系统的性能基准测试工具,其能够测试流式处理系统在典型场景下的性能表现情况,分析和诊断系统的瓶颈。接着论文对工具的流式负载生成、流式场景与应用构建、性能数据采集与分析这三个模块的设计和涉及的关键技术进行了阐述。最后,论文以Flink为目标系统,以五种流式处理场景(如网上购物场景、股票交易场景)下的八个应用(如商品销量统计、广告点击量统计)为工作集进行了集群测试,结果发现了Flink系统在多种场景下延迟、吞吐量和反压等性能指标的异常。结合系统分析了倾斜度、窗口大小和速率对性能的影响和具体问题的产生原因,总结了测试中的规律与结论。  本论文包括四个方面的贡献:一是分析和总结了流式处理模式的数据特征和计算特征;二是设计并实现了一种流式大数据处理系统的性能基准测试工具,弥补了现有流式基准测试的问题;三是为了对实验中的测试参数进行确定,提出了一种启发式的参数选取与取值方法;四是运用本基准测试工具对Flink系统进行了实验验证,发现并分析了Flink系统在多种流式场景下的性能问题。
其他文献
近年来,随着计算机硬件技术和网络应用技术的发展,基于集中化计算的网络计算机/服务器计算模式得到了广泛应用,其客户端形式也从过去的字符界面哑终端发展到现代的图形化界面交
面对全球范围内迅猛增长的数据存储需求,基于对象的存储技术(OBS)应运而生,相对于NAS和SAN而言,基于对象的存储系统由于其可伸缩性、低成本、跨平台、易管理等特性,逐渐成为海量
在以向手机上网的用户进行移动业务精准营销的需求为背景下,本文研究并设计实现了一种适应分类体系变化的海量网页快速分类系统。海量网页快速分类是以精准营销为目标的各种用
数学学科十分注重主体对于知识的主动探索.所以先探索后讲解是先学后教的一种重要的模式,但传统意义的这种模式和预习的差别不大,对真正调动学生的主观能动性的意义也不大.笔
由于传统语音网络无法满足用户对多媒体服务的需求,3GPP在R5版本中提出了IP多媒体子系统。计费功能作为其重要的组成部分,在前瞻研究和实际应用中有着巨大的价值,成为了IMS领域
在高中数学的教学中,等差数列作为有通项公式而且应用很广泛的数列之一来说,对整个高中数学的教学有着很重要的作用.而数学学习的很重要的一点就在于应用.如何使学生熟练掌握
本文研究并设计了关于网络数据传输的实时加解密系统,主要针对当前网络数据传输量大,传输信道安全性低的现状,对信道上的数据采用密文传输。本文首先选用了当前国内外较为流
随着互联网的广泛应用,Web应用平台已经逐渐成为互联网信息交互中心,许多Web程序为提高用户体验度,包含了大量的动态内容。但随之而来的是Web应用面临着日益严重的安全威胁,
高中数学解题教学是课堂教学中的一项极端重要的教学方法,也是有效实现课堂教学效果和达到学科教学目标的重要手段,一直以来受到一线教学实践的关注.在高中数学学习过程中,数
北京电视台播出的《大白菜的诉说》,受到北京观众的好评。为买白菜难而怨气不小的北京居民,从《大白菜的诉说》中了解了从农民到商业工作者付出的辛劳,了解了从市长到副总理