论文部分内容阅读
在大数据时代,由于各种传感设备和社交网络的兴起,对海量高速数据进行实时分析的需求不断提升。国外咨询机构对企业信息化的调查也显示,70%的企业存在对流式数据实时处理的需求。流式处理模式较之批式处理更加复杂,因而诞生了流式处理系统,如Storm、Flink等。但是在分布式集群环境下,流式处理系统更容易产生吞吐量下降、延迟增大、反压频繁出现和系统资源受限等各种性能问题。当前,流式处理系统的评测基准在业界还没有成熟的统一标准,现今各基准测试也存在着流式数据源考虑欠缺、应用特征覆盖少、评价指标单一等问题。 针对这些不足,本论文首先总结了流式处理模式的五大数据特征和四大计算特征。数据特征包括实时性、无限性、时序性、动态变化性与难重放性;计算特征包括计算的实时性、计算的有界性、计算的有序性和运行的高可靠性。接着基于流式处理模式的特征,设计并实现了一个流式大数据处理系统的性能基准测试工具,其能够测试流式处理系统在典型场景下的性能表现情况,分析和诊断系统的瓶颈。接着论文对工具的流式负载生成、流式场景与应用构建、性能数据采集与分析这三个模块的设计和涉及的关键技术进行了阐述。最后,论文以Flink为目标系统,以五种流式处理场景(如网上购物场景、股票交易场景)下的八个应用(如商品销量统计、广告点击量统计)为工作集进行了集群测试,结果发现了Flink系统在多种场景下延迟、吞吐量和反压等性能指标的异常。结合系统分析了倾斜度、窗口大小和速率对性能的影响和具体问题的产生原因,总结了测试中的规律与结论。 本论文包括四个方面的贡献:一是分析和总结了流式处理模式的数据特征和计算特征;二是设计并实现了一种流式大数据处理系统的性能基准测试工具,弥补了现有流式基准测试的问题;三是为了对实验中的测试参数进行确定,提出了一种启发式的参数选取与取值方法;四是运用本基准测试工具对Flink系统进行了实验验证,发现并分析了Flink系统在多种流式场景下的性能问题。