基于MapReduce的K-means聚类算法的FPGA加速研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:leki55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,互联网每天都会产生大量的数据,利用数据挖掘算法可以从中分析出有价值的数据。在聚类分析方法中,K-means聚类算法是应用最广泛的一种划分方法。该算法简单,且收敛速度快,但面对大数据集时,通用处理器遇到运算量大的瓶颈,基于单核单机的串行程序已经无法满足要求。针对这些问题,基于Hadoop2.0,采用CPU和FPGA的集群架构,提出了一种大数据量下基于MapReduce的K-means聚类算法的FPGA加速系统,利用并行处理技术以提高大数据量下K-means聚类算法的处理速度。首先,分析K-means聚类算法,找出该算法中最耗时的计算过程。利用MapReduce并行编程模型的优点,对K-means算法进行并行化设计,确定map过程和reduce过程的任务。为了减少中间结果的回传,在map过程后设立一个combine过程。在单个计算节点上通过PCI-express总线连接若干个FPGA加速卡,利用驱动程序将MapReduce过程中最耗时的计算任务发往FPGA上进行计算,利用FPGA片上功能模块间流水化、功能模块内并行化优势,大幅提高了系统的运算速度。Map加速器处理逻辑包括接口部分和计算部分,其中接口部分包括PCIe接口模块、硬件平台接口模块、数据接收模块和数据发送模块;计算部分包括map报文解析模块、多个map计算模块、调度模块以及combine计算模块。Reduce加速器处理逻辑的接口部分和Map加速器使用的相同;计算部分包括Reduce报文解析模块、文档数累加模块以及文档向量累加模块。利用Verilog描述语言实现了Map加速器和Reduce加速器的处理逻辑。最后,对在FPGA上实现的所有功能模块进行仿真,整体联合仿真通过后,将整个处理逻辑下载到FPGA上进行验证,实验结果表明实现的处理逻辑正确。对整个系统进行集成测试,与传统Hadoop2.0平台下的K-means相关实现相对比,分析实验结果,验证新架构的可行性和和性能优势。
其他文献
视频监控已在众多领域得到广泛应用,利用视频挖掘技术可以从海量视频数据中提取特征、进行有效的分析、发现高层语义知识和模式,实现对监控视频的自动化和智能化应用。目前,国内
目前Web信息量剧增,Internet已经成为人们重要的信息来源。当人们浏览网页时,会出现大量的导航条,广告信息,版权信息以及调查问卷等相关信息,这些信息通常并不是人们所要获取
Hadoop是对大规模数据进行分布式处理的软件框架,是一种实现云计算和云存储的分布式计算平台。在不知晓分布式架构的具体细节状况下,用户能开发和运行分布式应用。Hadoop充分利
铁路行车安全监控网络信息系统是保障铁路运输安全的重要技术措施,在目前已实施的一些相关系统中,对于实时监控功能大都采用了C/S模式,以求时效性强且技术成熟、易于实现,但
随着软件及硬件的复制、发布及多媒体数据生成工具的发展,互联网上的音频数据呈跨越式增长,如何鲁棒而又高效的从海量多媒体数据库中搜索用户感兴趣的信息成为近年来亟待解决
人脸识别是人工智能与模式识别的一个重要研究方向,它涉及到图像处理,计算机视觉,模式识别,机器学习等相关的多门学科,它的高可靠性和高稳定性使它广泛应用于信息安全,金融,安全防务
飞机地面空调车温度控制器工作在复杂的外界环境中,外界环境的不确定性和时变性以及工作模型难以确定等因素对温度调节都有影响。应用常规的PID控制方法响应时间慢,抗干扰性
学位
随着大数据时代的到来,面向大数据的存储系统纷纷出现。不断增长的数据量,使得集中式元数据管理系统的负担越来越重,逐渐成为大数据存储的瓶颈。为此,人们提出了多种分布式元
图形处理器(Graphic Processing Unit,GPU)是显卡最重要的组成部分。GPU的出现有效降低显卡对CPU的依赖,同时有效提高了图形处理,尤其是矩阵变换较多的三维图形的处理能力。