分布式数据流处理的算子调度与负载平衡研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:rrsmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流处理系统广泛应用在众多领域,例如金融管理、网络监视、通信数据管理、Web应用、传感器网络数据处理等。随着计算机网络、分布式计算技术的迅速发展,使得实时处理分布在网络不同结点上的流数据成为可能,于是分布式流处理技术便应运而生。由于流数据源及应用本身存在分布的特点,并且应用规模不断扩大,分布式流处理系统成为流数据处理研究的必然趋势。分布式数据流处理系统的研制在国际上也是刚刚起步,在军事、网络、金融等关系到国计民生的领域,将会有越来越广泛的用途。在分布式流处理系统中,算子调度策略的选取对系统内存的消耗,输出延迟的长短等系统重要性能指标有很大的影响。我们设计的GM调度策略综合考虑了将来的负载变化、当前的内存消耗状况以及用户对于主要性能指标的偏好与要求,在系统内存最小化和结果输出延迟方面取得平衡。在GM调度策略中,算子的执行顺序由一个评分函数统一决定。可以通过设置评分函数的静态参数来满足不同应用场景的需要,也可以自动地调整评分函数的动态参数来反映系统的工作状态。另外,GM调度策略可以保证查询的优先级。由于流处理应用中需要实时处理大量具有相当高的突发性的数据,系统可能不能及时处理。所以无论是集中式数据流处理系统还是分布式数据流处理系统,负载管理成为研究的热点与重点。在传统并行分布式系统领域,对负载管理问题的研究,与数据流的负载管理有许多相似之处,但存在着本质上的区别。负载平衡研究领域的大量算法可以大致分为静态负载平衡和动态负载平衡两个方面。对系统负载的准确预测往往是静态负载平衡算法的基础,对于改进动态负载平衡的效果也很重要。在数据流系统中,对于数据的处理有实时性要求。我们提出以加权时间性能比来评价算法的优劣,我们考察了效率很高的一些线性时间序列预测算法,如移动平均法,指数平滑法和GM(1, 1)法,并针对流处理的特点作了相应的修改。这些算法在分布式流处理领域具有很好的时间性能比。我们设计了一种新的大规模分布式数据流处理系统的体系结构,系统由一组异构的服务器集群组成,负载在每个服务器集群内部多台同构的服务器之间获得平衡,从而达到整个系统的负载平衡。集群设计的主要目标之一是以资源换性能,服务器集群中服务器的最大数目足够保证系统不再发生过载现象,不再需要会降低性能的卸载技术。而且投入运行的服务器的数目根据实际的系统负载来决定,负载较轻时,一部分服务器可以进入休眠状态来减少能源的消耗。在系统静态负载平衡方面,我们研究了很多相应的启发式方法,并在此基础上提出了一种高效率、高性能的静态平衡算法。首先根据一个初始化策略把任务分配到机器上,每台机器的任务数目、负载大致相当。我们提出了在两台机器之间交换任务的最优标准,利用这个标准,加快了平衡负载的过程。在分布式流处理系统静态负载平衡方面,我们还提出了一种新颖的负载平衡算法,为解决负载平衡问题提供了新的思路。首先,几乎所有的任务组织成所谓的标准任务组合,每一个任务组合由1到4个任务组成。然后,这些任务组合根据一个特殊的整数分割算法分配到机器上,每台机器上分配的负载比较平均。
其他文献
以信息技术与图书馆服务整合为基点,分析和探讨了公共图书馆如何适应信息社会环境等问题,提出应从制度设计、服务转型、资源组织、人才培养等方面着手来实现图书馆服务模式的创
《汽车维护与保养》课程是维修专业学生必须要掌握的课程,但目前,中国汽车维护与保养教学中仍存在着一些问题。所以,如何提高汽车维护与保养教学的效果,本文将从汽车维护与保
信息网络技术的应用和政府网络环境为政府推行电子政务提供了平台,同时也推动了政府档案资源体系的构建、服务功能的拓展。在建设档案信息化发展的过程中,作为政府档案管理者,要
档案是对企业生产经营活动的全面记录和总结,对企业的发展具有至关重要的作用,因此,如何完善档案管理与提高档案的利用效率成为现下企业关注的热点问题。随着时代的发展,信息化已
产品设计方法在产品开发中起着重要作用。生命现象蕴涵着无穷的奇妙和灵巧,可为包括产品设计在内的各种复杂问题的有效解决提供启迪和灵感。近年来,随着各种仿生计算技术的不
子空间方法是模式识别领域一个重要的研究方向,很多年来一直受到该领域学者们的广泛关注。Fisher线性判别分析方法(Fisher Linear DiscriminantAnalysis,FLD或LDA)及以其为代
成果地质资料是国家和单位投入大量的人力、物力、财力所获取的成果性资料。对今后国家能源发展起着至关重要的作用,如何妥善保管好这些资料责任重大。笔者从成果地质资料的制
进化算法已经成功地应用到与优化任务相关的许多问题中。微分进化(DE)是一种比较新颖的进化算法,最近5-7年的发展非常迅速,得到许多研究人员的关注。DE算法与遗传算法、遗传
随着计算机网络的不断发展以及数字化多媒体信息在网络上大量增长,人们需要对大量的多媒体信息进行有效的组织、管理,从而为迅速、准确、有效检索提供保障。本文主要围绕基于
解析了在受现代商业环境影响下的展示设计的特点和展示设计的规则,得出了商业展示设计的本质是商业性的传达设计。解决好商业展示中的传达问题也就解决了商业展示设计中最根