数据流处理系统中优化调度算法研究与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:dmjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在线广告、实时统计分析等时效性敏感的数据处理场景越来越多。数据流处理技术因为其高时效性成为新的研究热点。数据流处理技术能提供实时、可靠、易用和可伸缩的计算服务,数据可以通过该服务在时效时间内完成计算。同时,由于对时效的敏感性,数据流处理系统中及时的负载预测和高效的任务调度算法都至关重要。国内外学者在负载预测和任务调度方面的研究已经有了众多成果,但大部分学者未针对数据流和数据流处理系统的特点进行研究。基于线性回归等算法的负载预测,已不能很好的反映数据流处理系统中的负载状况;对于任务调度,针对单一资源评价指标的调度算法已经无法满足数据流处理系统中实时性和完全调度的要求。因此,本文在对现有研究成果分析、学习的基础上,针对数据流处理系统的特点,提出了基于SOM聚类的负载预测算法和流处理调度优化算法。首先,基于SOM聚类的负载预测算法能根据已知类别中的负载信息进行预测:利用SOM人工神经网络模拟数据源和计算拓扑结构对流处理负载的影响,将相似计算模式的负载聚类;针对数据流和拓扑结构多变的特点,提出SOM网络动态添加神经元策略;为了提高算法的实时性,提出了权值向量初始化策略、SOM命中预测机制和SOM状态机。实验结果表明,本文提出的算法能够在流处理负载预测中取得较好的效果。其次,流处理调度优化算法分析了数据流处理中拓扑调度问题的特殊性。将调度问题分为任务选择和节点选择:在初始阶段,综合考虑CPU、内存和通信成本,选择最优节点;在动态调整阶段,根据实际运行中的通信情况进行调度调整。实验结果表明,本文提出的流处理调度优化算法在负载均衡和减少通信时延方面都有较好的效果。最后,本文设计了一个基于Storm的数据流处理平台,对调度子系统和订阅发布子系统等关键模块进行了详细的介绍,并将本文提出的基于SOM聚类的负载预测算法和流处理调度优化算法嵌入在系统模块中。实验结果表明,本文提出的算法在流处理系统中具有有效性和可行性。
其他文献
语义网是万维网的一个扩展,用机器可理解的方式来描述信息,为了解决当前万维网缺乏语义的问题。语义网中用本体来描述信息,表达概念以及概念之间的关系。由于现实世界的信息
人工蜂群算法(Artificial Bee Colony, ABC)是近年来流行的一种进化计算方法,受启发于蜂群个体间相互协作的特定社会群体行为,是一种基于种群搜索策略的启发式优化算法。人工
网络发展迅速,网页数量越来越庞大,人们为了获取需要的信息,往往需要翻阅大量的网页,浪费时间和精力,并且还不一定能够获取最新最全的信息,而网络信息的发布者也希望有更多的
随着移动设备、通信技术和信息技术的快速发展,人类已经进入大数据时代,各行各业日均产生的数据从GB、TB一路发展到PB级,各种用于处理大数据的工具也随之出现,如Hadoop,Hive,
随着物联网技术的迅速发展,以及人们生活水平的提高,智能家居逐渐走进了人们的生活。在现有的智能家居系统中,对一个信息所触发的事件基本是预先设定好的,并不能满足不同的用户对
随着智能手机的发展,通讯方式已经发生了很大的变化。起初移动电话是为进行语音通讯而开发的,但当前语音通讯只是移动电话应用的一个方面。在基于安卓的开源智能手机发布之后,用
目前,许多国家在农产品的质量检测方面都已开始使用计算机视觉技术,来实现对农产品的识别、检测和管理。作为一种新型的无损检测技术,计算机视觉技术成为实现农产品检验的自
本文主要研究无线传感器网络安全中的关键技术,在分析了无线传感器网络的结构特性以及安全需求的基础上,选择密钥管理方案以及安全路由协议作为研究重点。密钥管理方案是无线传
Euclidean最短路径问题简称ESP问题,它是计算几何研究领域的经典问题。本文针对访问平面内给定线段次序的线段集的ESP问题进行研究,着重研究给定线段集中可能存在相交线段的
本论文提出了一种基于Rough集理论改进的HOG特征行人检测方法,目的是提高检测精度的同时加快行人检测的速度。原HOG特征是在64*128像素的检测窗口中提取105个Block,每个Block