面向海量数据分析的并行数据流处理系统PArgus的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:xujinjinjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术不断深入应用到金融、交通、军事、网络监测等领域,面向数据流的应用已经无处不在。而近年来互联网的广泛应用,海量的数据得以涌现。不同于传统的数据流只是一些针对实时分析与实时监测的简单过滤、聚合等查询请求,海量数据具有数据规模大,来源多且分布于大量cluster节点的特点。通过多个处理单元并行协作,进行大规模的数据并行处理,可以有效的降低处理延迟,因此并行计算技术在其中得到了广泛的应用;另一方面,面向海量数据的分析任务往往更为复杂,而流处理与海量数据分析任务具有共同的主要特点:符合过程化的处理方式。将海量数据分析下的并行计算与流处理结合,已经成为当前的一个研究热点,因此,本文针对海量数据分析任务的应用需求和特征,结合Argus系统的特点,搭建面向海量数据分析的并行数据流处理系统原型Pargus。   本文首先对面向海量数据的分析任务特征与相关系统进行了深入研究,并在此基础上针对Argus的现状,构建出Pargus的体系结构。本文的贡献在于:   1.设计出一系列表达能力较强的语言级别的接口函数,能够很好的以过程化的方式来描述大部分面向海量数据的分析任务功能需求。   2.复用Argus功能算子库来构建并行算子库,并提出统一描述符PCC以描述算子的并行实现机制,并重点讨论了数据倾斜现象下的调整策略。   3.提出并行数据流结构属性的代数描述,并在此基础上对并行计划进行优化以减少整个并行计划的数据划分代价。   4.在运行态下,设计出相应的监控机制,运行基于负载平衡与网络延迟的动态调整策略,以保证系统有较短的处理延迟和较高的吞吐量。   本文最后对未来的研究工作做了展望。  
其他文献
分布式共享与协同技术可以很好的组织、管理、存储和访问分布在不同地理位置上的空间数据资源。Agent因其自适应、灵活等特点,可以自主地在分布式环境中发挥作用。对于每一个
纵观国内外大部分制糖企业除了煮糖阶段仍采用间歇法外,其余工序都已经基本实现了生产中的自动化控制。国内大部分制糖企业在煮糖工序结晶环节仍需人工目测感触晶粒的成长状
序列关联规则挖掘在许多领域有着广泛的应用,如客户行为分析,客户服务推荐等,但序列关联规则挖掘也存在一些挑战,当序列数据库规模较大时,内存和CPU资源就成为算法的瓶颈,即
本课题受国家自然科学基金项目(项目编号60970073)的资助,主要研究基于SOM神经网络的多维数据自动聚类算法及其应用。多维数据自动聚类作为优选动态流量软测量训练样本的主要
红外遥感利用物体的热辐射特性实现对目标的探测,被广泛应用于资源调查、环境监测、工农业生产及国防等各个领域。   红外成像系统的辐射定标是获取目标红外辐射特性的基
学位
零售信息化是加强油站经营管理的强有力手段。前庭设备控制系统是站级油品零售系统的核心,该系统负责前庭设备管理和控制、IFSF协议转换、油品数据管理、前庭信息配置等功能,
Ad Hoe网络,也被称为无线分组网络,是由若干带有无线收发装置的移动或固定节点所组成的多跳、没有中心节点的临时性自治网络系统。由于上述这些特性,它可以在许多特殊环境下(例如
过去十多年来越来越多的证据表明,静息态功能磁共振成像的研究数量处于稳步上升中。静息态与人脑内在的固有的自发活动有关,很可能反映人脑功能的基线状态。大脑的多个大规模
工作流技术是20世纪90年代发展起来的一项关于企业经营过程管理的技术,它的出现给企业带来了巨大的利益,例如:降低管理成本;提高企业工作效率:增强企业自我水平等。工作流技
密码技术是实现网络信息安全的核心,除了用于信息加密外,也用于数据信息签名与安全认证,是保护信息安全的最重要工具之一。随着计算机科学技术的发展,网络和信息技术已经渗透到社
学位