面向大数据的分布式数据流处理引擎设计与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:z534921
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据处理是计算机最核心任务之一。随着互联网和计算机技术的发展,电子数据量的急剧增加,普通计算机系统的处理能力已经不能满足大规模数据处理的需求;同时,随着Web2.0和社交网络服务等新型应用形态的出现,用户对于动态的热点信息获取的需求也越来越高,导致当前数据处理领域迫切需要能够及时处理大规模数据的相关技术和平台。   论文针对目前大规模数据及时处理的迫切需求,设计与实现了面向大规模数据的分布式流处理平台,并针对这类平台的挑战问题提供了初步的解决方案和实现。   论文首先对批量处理和流式处理两种常见的数据处理模型及其相关系统进行分析比较,基于Actor并发处理模型,设计了一种带有缓冲区的处理模型,并依此设计了一种简单、灵活的编程框架,该编程框架中的每个处理单元封装为标准的五阶段处理流程,而每个阶段都提供处理逻辑扩展接口,以灵活应对不同应用的编程需求。   基于上述处理模型和编程框架,设计并实现了一个基于事件驱动架构的运行时执行引擎,以及基于Master-Slave架构的分布式管理框架。针对该类数据流处理系统中可能出现的负载不均衡问题,研究了处理单元预分配策略和动态均衡策略,并给出了系统实现;同时,针对系统Master-Slave架构中可能出现的节点失效问题给出了一种初步的解决方案与实现。   最后,论文对系统的功能和扩展性进行了测试评估,结果表明:1)系统具备对大规模数据进行流处理的能力;2)系统具备良好的扩展能力,可以有效地向多处理器、高并发处理能力的系统节点扩展。
其他文献
软件演化是软件生命周期中的一个重要活动。软件演化的目的是为了满足用户不断提出的新需求或修改软件现有缺陷。在软件演化过程中,新需求是导致软件系统不断演化的根本动力之
信息科技的发展正在改变着世界,数据库也从最简单的存储数据的表格发展到海量数据存储的大型数据库系统,并在互联网、金融、医疗、电力、电子商务等领域等到了广泛应用。数据库
入侵检测是一种用于检测计算机网络系统中入侵行为的网络信息安全技术。在计算机安全中,伪装者试图扮演合法用户的角色进入系统,是一种入侵活动。及早有效地发现入侵是保障计算
如今环境污染越来越严重,水资源紧缺问题愈益突出,如何才能有效地保护水资源已提上了人们的议程。森林作为陆地生态系统的主体,在水源涵养方面发挥着巨大的作用。在水资源短缺的
作为云计算和新兴Web2.0互联网应用的核心技术之一,分布式文件系统是当前存储系统技术领域的研究热点。分布式文件系统的资源共享、对存储平台的抽象性和隔离性、大规模扩展
高性能计算是科技创新的重要手段,随着国民经济的迅速发展,提供高效快捷的应用服务成为高性能计算应用领域研究的热点。本文从高性能应用的需求出发,分析了当前高性能应用的不足
随着多媒体技术、互联网技术、移动通信技术和VLSI技术的飞速发展,数字视频在人们日常生活中扮演着越来越重要的角色。数字视频资源的爆炸式增长和新应用需求的不断涌现,向视频
近年来,大部分高校,企业或者政府的业务基本都是通过MIS系统来实现,MIS系统涉及的领域越来越广。MIS(管理信息系统,Management InformationSystem)系统,主要指的是进行日常事
心率变异性(Heart rate variability,HRV)是指心率节奏快慢随时间所发生的变化。HRV的研究目的是分析逐个心动周期的细微的时间变化及其规律。这种变化在体表记录的常规心电
社区问答系统已成为互联网上信息获取和知识分享的重要媒介。例如Yahoo!Answers、百度知道等社区问答网站每天发布有数以万计的问题。与此同时,社区问答系统也积累了数以亿计