论文部分内容阅读
随着硬件技术的迅猛发展带来了图形处理器的革新,这个原本只是用于图形数据处理的设备现在却变得举足轻重,它拥有高带宽和高度并行计算的能力使得在大规模数据集运算的应用上,它在性能上有比目前的CPU更具优势。
而互联网的发展也带来了数据的爆炸式增长,如何在这些海量数据中获取有价值的信息已经成为每个人都需要面对的问题。Google公司在这个方面成为了技术的引导者,它的开发人员设计并实现了一个仅仅通过普通计算机集群的组合以及在集群中运行的高性能并行计算平台,拥有这个平台能得到过去只有购买昂贵大型专用服务器才有的大规模计算能力,这就是MapReduce并行计算模型,目前MapReduce模型现被应用于天文信息计算处理、病毒库存储、网络检索服务等方面,这个模型能够解决数据爆炸式增长带来的计算机存储能力和计算能力不足之间的矛盾。
本文结合上面二者的长处,提出研究和实现一个完整的高性能并行计算系统,它以GPU为硬件基础并配合基于MapReduce并行计算模型平台进行大规模数据处理。
首先我们给出基于MapReduce并行计算模型平台的系统架构,该架构为客户端—管理节点—工作节点三层。客户端通过命令行的方式提交任务;管理节点接收任务并进行分析,把任务拆分成多块,分配给它所管理的工作节点,然后调用工作节点进行计算;最后的工作节点是本论文研究和设计的重点,工作节点首先对GPU设备初始化并把计算任务分配给CPU和GPU,由二者互相配合,共同完成数据的计算,充分利用系统空闲的资源和获得更多的计算能力。
最后我们在已经部署好的平台上,进行测试系统性能的实验,通过基于CPU的MapReduce集群方式执行计算和本系统计算的对比实验,获得的结果表明这种基于GPGPU的MapReduce并行计算模型具有比前者更高的效率。