大规模流计算系统的基准测试研究

被引量 : 0次 | 上传用户:lhbss230
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据正成为一个热点名词被广泛关注的同时,大规模的流数据处理也逐渐兴起,涌现出一批分布式流计算系统。然而流计算的复杂性和其应用场景的广泛性给该领域的基准测试带来很大的挑战。由于缺乏统一的基准测试标准,公正地衡量和比较这些系统困难重重。这篇论文涉足这个相对空白的领域。首先,论文指出了在该领域进行基准测试所需应对的挑战和所要满足的必要条件。在此基础上,该论文给出了自己的基准测试标准定义StreamBench。StreamBench是一个概念层面的不依赖具体系统的大规模流计算系统的基准测试标准,定义包含了数据生成方式规约,程序集选择,工作流集定义以及度量标准制定。在数据生成方式上,StreamBench提出在数据生成和数据消费中间利用一个消息系统作为中介的方式使得数据的生成和消费解耦。在程序集合的选择上,它由流计算场景中提取的七个小程序组成,涵盖了流计算中比较有代表性的操作。为了衡量除了性能外的诸如故障恢复能力和持续响应能力等其他指标,StreamBench构造了四套工作流集针对系统这些不同的方面进行测量,并且根据不同的工作流集制定了相应的度量标准。最后,笔者在不同大规模流计算框架上按照StreamBench的定义将其实现并进行实验。首先笔者对比了Apache Spark Streaming和Apache Storm上的各项指标的差异,在笔者的实验环境和配置下,Spark的吞吐量平均是Storm的5倍左右,但当平均每条记录长度增大时,两者吞吐量的差距会缩小。Spark的延迟一般在秒级,而Storm的延迟一般在十几毫秒以下,但也会随着程序复杂度和输入数量级迅速地提升甚至超过Spark。单节点故障对Spark没有明显的影响,但会导致Storm的吞吐量下降三分之一,延迟增加了四到五倍。两个系统都表现出良好的持续响应能力。另外,笔者还利用StreamBench证实了Storm版本0.9.3和版本0.9.1相比带来的性能提升,在笔者的实验环境中,吞吐量平均提升了26%,延迟平均降低了40%。此外,笔者还利用StreamBench测试出Apache Spark Streaming新开发的可靠Kafka数据获取这个功能相对与原先的数据获取方式带来的性能开销,笔者的实验环境中这个新功能使得吞吐量下降了40%–70%。
其他文献
从水文地质的角度揭示了不同情况下单井的排水采气机理。在此基础上结合柿庄南区块59口井的实际排采数据,综合分析了气水产量,井底流压,套压及动液面随时间的变化曲线;并将早
随着智能手机的高速发展,Android系统的普及率也越来越高,随之而来的就是Android代码保护问题,许多恶意程序会通过重打包的方式植入到普通应用中去,达到其破坏的目的。本文将
本文以安康紫金矿业有限公司“陕西省安康市石泉县将军河-汉滨区柳树坪一带构造-岩相填图与金矿成矿规律研究”项目和中国地调局“陕西石泉-旬阳金矿整装勘查区长沟一带重点
也许你已熟知咖啡的繁多品类:摩卡、蓝山、拿铁……但对于接下来我们要说起的胶囊咖啡,你是否有所耳闻,由雀巢公司打造的奈斯派索(Nespresso),开创了咖啡的奢侈体验之旅。
目前,高等院校教学改革的重要内容之一是课程改革。我校通过对"市场营销学"课程建设的实际操作,明确了课程建设的内涵,进行了课程分析和定位,确定了能力培养视角下,以突出技
并购作为一项重要的投资经营活动,不论在实务界还是学术界,都引起了人们的广泛讨论和重视。并购的风险包括市场风险、法律风险、政治风险、财务风险等等,这些风险有所不同却
目的:设计一种基于网络传输的全数字高清手术示教系统,用于提高手术教学的效率。方法:使用移动手术转播车,通过网络将手术的图像及声音传输到安装了手术示教管理系统的中心服
<正>最近总在思考一个问题,那就是我和我的团队将把利郎引向何方?像利郎这样的民族服装品牌,一边要突围国内男装品牌的同质化竞争,一边要防御国际品牌的强势扩张。我们矢志不
目的分析恙虫病致多器官损害的临床特点,为防治恙虫病并发多器官损害提供临床依据。方法回顾性分析广西医科大学第一附属医院及柳州市人民医院2009-01至2014-07诊断的恙虫病