面向大数据的分布式数据流处理引擎设计与实现

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：z534921

【摘要】

：

数据处理是计算机最核心任务之一。随着互联网和计算机技术的发展，电子数据量的急剧增加，普通计算机系统的处理能力已经不能满足大规模数据处理的需求;同时，随着Web2.0和社交网

【作者】

：

吴东尧

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

分布式数据流处理引擎设计扩展能力节点失效动态均衡

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据处理是计算机最核心任务之一。随着互联网和计算机技术的发展，电子数据量的急剧增加，普通计算机系统的处理能力已经不能满足大规模数据处理的需求;同时，随着Web2.0和社交网络服务等新型应用形态的出现，用户对于动态的热点信息获取的需求也越来越高，导致当前数据处理领域迫切需要能够及时处理大规模数据的相关技术和平台。　　论文针对目前大规模数据及时处理的迫切需求，设计与实现了面向大规模数据的分布式流处理平台，并针对这类平台的挑战问题提供了初步的解决方案和实现。　　论文首先对批量处理和流式处理两种常见的数据处理模型及其相关系统进行分析比较，基于Actor并发处理模型，设计了一种带有缓冲区的处理模型，并依此设计了一种简单、灵活的编程框架，该编程框架中的每个处理单元封装为标准的五阶段处理流程，而每个阶段都提供处理逻辑扩展接口，以灵活应对不同应用的编程需求。　　基于上述处理模型和编程框架，设计并实现了一个基于事件驱动架构的运行时执行引擎，以及基于Master-Slave架构的分布式管理框架。针对该类数据流处理系统中可能出现的负载不均衡问题，研究了处理单元预分配策略和动态均衡策略，并给出了系统实现;同时，针对系统Master-Slave架构中可能出现的节点失效问题给出了一种初步的解决方案与实现。　　最后，论文对系统的功能和扩展性进行了测试评估，结果表明:1）系统具备对大规模数据进行流处理的能力;2）系统具备良好的扩展能力，可以有效地向多处理器、高并发处理能力的系统节点扩展。

其他文献

一种基于用户日志的网络化软件需求演化预测方法及工具

软件演化是软件生命周期中的一个重要活动。软件演化的目的是为了满足用户不断提出的新需求或修改软件现有缺陷。在软件演化过程中，新需求是导致软件系统不断演化的根本动力之

学位

网络化软件需求演化用户日志行为偏好预测方法

数据库并发协议研究及系统性能分析

信息科技的发展正在改变着世界，数据库也从最简单的存储数据的表格发展到海量数据存储的大型数据库系统，并在互联网、金融、医疗、电力、电子商务等领域等到了广泛应用。数据库

学位

有色Petri网数据库并发控制形式化分析自动验证性能分析

基于主机的用户伪装入侵检测方法研究

入侵检测是一种用于检测计算机网络系统中入侵行为的网络信息安全技术。在计算机安全中，伪装者试图扮演合法用户的角色进入系统，是一种入侵活动。及早有效地发现入侵是保障计算

学位

入侵检测文本分类用户伪装shell命令Linux系统

基于MATLAB的森林水资源涵养功能评估系统的研建

如今环境污染越来越严重，水资源紧缺问题愈益突出，如何才能有效地保护水资源已提上了人们的议程。森林作为陆地生态系统的主体，在水源涵养方面发挥着巨大的作用。在水资源短缺的

学位

森林水源涵养评估系统软件开发

面向Web2.0应用的分布式文件系统关键技术研究

作为云计算和新兴Web2.0互联网应用的核心技术之一,分布式文件系统是当前存储系统技术领域的研究热点。分布式文件系统的资源共享、对存储平台的抽象性和隔离性、大规模扩展

学位

分布式文件系统Web2.0互联网工作原理存储方法资源配置

云计算模式下的高性能计算应用服务的设计与实现

高性能计算是科技创新的重要手段，随着国民经济的迅速发展，提供高效快捷的应用服务成为高性能计算应用领域研究的热点。本文从高性能应用的需求出发，分析了当前高性能应用的不足

学位

高性能计算云计算驱动扩展机制用户权限管理

基于运动时空相关性的视频编码及质量评价技术研究

随着多媒体技术、互联网技术、移动通信技术和VLSI技术的飞速发展，数字视频在人们日常生活中扮演着越来越重要的角色。数字视频资源的爆炸式增长和新应用需求的不断涌现，向视频

学位

多媒体通信视频压缩图像编码编码标准

代码生成技术在MIS系统中的研究与应用

近年来,大部分高校,企业或者政府的业务基本都是通过MIS系统来实现,MIS系统涉及的领域越来越广。MIS(管理信息系统,Management InformationSystem)系统,主要指的是进行日常事

学位

管理信息系统关系数据模型代码生成技术开发效率工程应用

HRV软件算法分析与验证

心率变异性(Heart rate variability,HRV)是指心率节奏快慢随时间所发生的变化。HRV的研究目的是分析逐个心动周期的细微的时间变化及其规律。这种变化在体表记录的常规心电

学位

心率变异性病理诊断小波变换软件开发算法优化

面向社区问答的问题分析与处理关键技术研究

社区问答系统已成为互联网上信息获取和知识分享的重要媒介。例如Yahoo!Answers、百度知道等社区问答网站每天发布有数以万计的问题。与此同时,社区问答系统也积累了数以亿计

学位

社区问答系统功能模块信息检索工作原理标签技术

面向大数据的分布式数据流处理引擎设计与实现

与本文相关的学术论文