论文部分内容阅读
数据处理是计算机最核心任务之一。随着互联网和计算机技术的发展,电子数据量的急剧增加,普通计算机系统的处理能力已经不能满足大规模数据处理的需求;同时,随着Web2.0和社交网络服务等新型应用形态的出现,用户对于动态的热点信息获取的需求也越来越高,导致当前数据处理领域迫切需要能够及时处理大规模数据的相关技术和平台。
论文针对目前大规模数据及时处理的迫切需求,设计与实现了面向大规模数据的分布式流处理平台,并针对这类平台的挑战问题提供了初步的解决方案和实现。
论文首先对批量处理和流式处理两种常见的数据处理模型及其相关系统进行分析比较,基于Actor并发处理模型,设计了一种带有缓冲区的处理模型,并依此设计了一种简单、灵活的编程框架,该编程框架中的每个处理单元封装为标准的五阶段处理流程,而每个阶段都提供处理逻辑扩展接口,以灵活应对不同应用的编程需求。
基于上述处理模型和编程框架,设计并实现了一个基于事件驱动架构的运行时执行引擎,以及基于Master-Slave架构的分布式管理框架。针对该类数据流处理系统中可能出现的负载不均衡问题,研究了处理单元预分配策略和动态均衡策略,并给出了系统实现;同时,针对系统Master-Slave架构中可能出现的节点失效问题给出了一种初步的解决方案与实现。
最后,论文对系统的功能和扩展性进行了测试评估,结果表明:1)系统具备对大规模数据进行流处理的能力;2)系统具备良好的扩展能力,可以有效地向多处理器、高并发处理能力的系统节点扩展。