高扩展高容错流式处理系统设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:mangshengsun1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来各种应用产生的数据呈爆炸性增长,其中很大一部分是实时产生的数据,具有无限性、无序性、突发性、易失性等特点,并且通常数据的价值随时间而减少。如何为这些需要实时分析处理的数据提供稳定、正确、高效、实时的分布式运行环境成为一个值得仔细研究的问题。流式处理系统旨在解决这一问题,但现有的流式处理系统还有许多可以改进的地方。本文在吸收这些系统的设计经验的基础上结合对流式系统的理解设计实现了高扩展、高容错的流式处理系统DStream,主要工作如下:总体架构采用主从方式和无状态设计,主节点和工作节点主要通过分布式协调服务进行通信,避免功能模块相互耦合,提供设计良好的任务模型方便应用开发。这些设计为系统的扩展性和容错性设计打下了坚实的基础。扩展性方面提供从集群节点、处理逻辑、任务配置到任务运行一整套环节的扩展性支持:支持工作节点动态增删以调整集群资源;支持处理逻辑、任务配置更新并实时检测在线更新,为应用迭代开发提供了良好支持;灵活应对流速变化的数据,既保证系统不因数据过多而崩溃又提供措施使系统资源动态分配以满足处理需求。容错性方面系统支持物理节点、执行单元以及任务执行等各环节的容错:每个功能模块都有措施应对其节点出错;执行单元出错后系统检测到并进行重新调度;任务执行时系统提供数据至多处理一次、至少处理一次以及恰好处理一次的容错性支持,极大的提高了系统的适用范围,为用户提供效率和容错性级别之间的选择。文章最后通过基于DStream流式处理系统实现的应用场景以及相关实验,来展示系统使用及验证上述设计。
其他文献
随着计算机科学和通信技术的不断发展,人们对通信的需求愈来愈复杂化和多样化,其发展的最终目标是人们能够无拘无束地获取和交换信息,其总趋势是数字化、智能化、综合化、个
在对目前使用的计算机基础课程考试系统进行广泛调研的基础上,设计并实现了一个新的网络考试系统。系统采用基于浏览器方式的网络三层结构体系,划分为表示、功能和数据三个基
随着INTERNET的迅速发展,电子商务等深层次的应用迅速崛起,人们对INTERNET上的信息进行深层次处理的要求迅速提高。对信息管理和信息交换的需求更是空前强烈和迫切,使得已在
“集群WEB代理服务器”是根据北京市科委“基于IPv6的下一代互联网关键技术研发及产业化推进”项目中“IPv6流媒体分发应用支撑系统”的一个子系统且已得到了实际的应用。由
基于IP网络的语音传输(VoIP)技术目前已经发展成为一种专门的语音通信技术,其应用范围越来越广。VOIP的一个优势是,用户无需在互联网接入服务费用之外无需再支付其它费用,就
随着移动技术的快速发展和WAP技术的推广应用,通过手机随时对某些特殊情况实施异地监控已成为可能。这种监控对一些特殊群体,例如孤寡老人、幼儿等都有着重要的实际意义。本
负载均衡是结构化P2P网络中资源管理和任务调度的关键技术之一。造成结构化P2P网络负载失衡的主要原因是资源查找者对各节点上存储信息的需求往往是不均匀的,从而导致某些节
21世纪,随着信息社会的不断发展和互联网的逐渐普及,人们面对日益增加的信息量,迫切需要有效的工具来分析和处理所需要的数据。随着20世纪80年代神经网络的发展和KDD(数据库
医学图像配准是医学图像处理领域中的一项重要技术,对临床诊断和治疗起着越来越重要的作用。尽管医学图像刚性配准研究已经开展多年,但是目前的主要方法仍然存在不足,需进一
本文描述了一个基于CG树的分布式服务器集群的设计和实现,主要内容有:1、提出了一套较为简单可行的CG树通信协议。该通信协议能在就绪状态下,能够维持集群的正常通信;在集群