【摘 要】
:
互联网的发展产生了大量数据,基于大数据的数据分析和数据挖掘技术逐渐发展。传统的数据数据量小,数据格式单一,一般采用单台服务器进行数据的挖掘或计算。而随着互联网数据量的和数据格式的迅速增多,传统数据处理系统并不能高效快速针对多种数据进行处理,缺乏一个较为通用的分布式数据处理平台。因此如何设计一个针对不同的数据格式进行海量数据处理并包含计算和存储功能的基础分布式数据处理平台成为一个值得研究的问题。本文
论文部分内容阅读
互联网的发展产生了大量数据,基于大数据的数据分析和数据挖掘技术逐渐发展。传统的数据数据量小,数据格式单一,一般采用单台服务器进行数据的挖掘或计算。而随着互联网数据量的和数据格式的迅速增多,传统数据处理系统并不能高效快速针对多种数据进行处理,缺乏一个较为通用的分布式数据处理平台。因此如何设计一个针对不同的数据格式进行海量数据处理并包含计算和存储功能的基础分布式数据处理平台成为一个值得研究的问题。本文设计了一个基于图计算的分布式海量数据计算平台,能够针对包含图数据在内的多种格式的数据进行分布式计算和存储,能完成用户自定义的多种数据和任务的抽象和处理,完成任务解析,任务执行,任务调度,数据存储等功能。主要工作如下:(1)设计并实现了分布式并行海量数据处理平台,GraphMaster节点负责系统任务调度和资源管理,GraphSlave执行节点和GraphWorker计算节点负责任务执行和资源统计。(2)设计了一种分布式系统的控制信息数据管理模型,通过用户自定义编写的动态链接库和图数据执行流拓扑结构文件定义整个图计算过程,将具体的业务代码和计算平台系统解耦,实现数据处理平台通用化。设计一致性哈希磁盘存储协议模型为系统提供一个高效通用的分布式存储引擎。设计主备节点一致性协议提高系统GraphMaster节点可靠性。(3)设计了一种资源分配调度算法模型,该模型包含系统初始化资源感知调度算法,系统运行中资源重新配置调度算法以及系统灾备调度算法等重要调度算法。该算法模型能根据系统硬件资源使用情况进行任务动态调度,检测系统服务器或任务执行异常并进行系统灾备调度。(4)对整个分布式系统进行系统搭建和测试,对整个系统所有关键模块进行功能测试和性能测试,并对测试结果进行详细分析。本文提供了一个包含图数据在内的通用的多种类型数据分布式处理平台,具有容错性能好,资源调度合理,网络吞吐量大和通用性强等特点,为多种类型海量数据的计算和存储提供了一种设计方案和解决思路。
其他文献
近年来,随着大数据技术的进步,复杂网络与机器学习的交叉研究越来越受到众多学者的关注。复杂网络是自然界中众多复杂系统的抽象描述,主要以统计物理的角度研究系统的演化;机
目的:对骨髓增生异常/骨髓增殖性肿瘤-不能分类(MDS/MPN-U)的信号通路蛋白进行筛选,探讨差异表达的蛋白在MDS/MPN-U发病机制中可能涉及的作用。方法:采用蛋白通路芯片技术(pr
目的:探讨微颗粒(microparticles,MP)在异基因造血干细胞移植(allogeneic hematopoietic stem cell transplantation,allo-HSCT)过程中的改变及其临床意义,寻找移植后血栓性
当前,随着中国经济建设的发展,人们更加注重生活质量与生活环境的双重提高。河道作为一项基本的运输渠道和天然水流通道,在人们的生活中发挥着不可替代的作用,然而随着当前人们对
本研究检测免疫性血小板减少症(ITP)患者骨髓滤泡辅助性T细胞(Tfh细胞)数量及功能,探讨Tfh细胞在ITP发病机制中的作用。选取2013年1月至10月在天津医科大学总医院血液科就诊的21例
基于气液相变原理散热的热管是解决目前电子设备散热问题的首选,而铜粉烧结式热管是应用最广泛的一类热管,其传热性能主要取决于内部的吸液芯结构,填粉工序是吸液芯制作过程
项目概况:总占地面积为21.49hm^2,建设工程主要包括:新建60×10^4m^3/d净水厂一座(其中近期原地建设40×10^4m^3/d,远期新建20×10^4m^3/d),其加药间、加氯间等部分配套设施
“一带一路”倡议是促进国家共同发展、共同繁荣的合作共赢之路,是我国实现对外开放战略的核心,对我国和周边国家发展有重要战略意义,沿线节点城市是“一带一路”重要组成部
一座城市,尤其是一座新城如何建设和管理,一直是困扰着城市管理者的难题。城市基础设施的建设,社会服务体系的建立,文化体育、医疗卫生设施的完善都需要大量的资金,这些问题不能仅