移动GPGPU映射优化研究与手势识别案例的实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:jxx168jxx168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,GPU因其强大的并行计算能力与功耗控制能力被广泛应用于GPGPU加速。与此同时,GPGPU映射优化成为研究人员关注的热点,桌面领域的研究成果尤其显著。由于移动GPU起步较晚,映射优化研究不够深入。这体现在,移动GPGPU映射优化多采用试错方式,缺乏针对硬件的性能瓶颈分析与系统的优化方法指导;现有的移动GPGPU加速多限于算法级别的映射,缺乏系统级别的优化。这种情况下,移动GPGPU映射优化研究工作就显得尤为重要。  本文以典型的移动GPU架构Mali系列为例,结合Mali GPU硬件特点以及OpenCL编程框架软件特点,提出基于该架构GPGPU映射优化方法。具体的,首先从渲染核心、流水线、计算单元三个层次分析Mali GPU的硬件架构,根据硬件特点提出对应的映射优化方法。接着,从平台模型、执行模型、内存模型、编程模型四个方面探讨OpenCL编程框架在Mali GPU上的实现,根据软件特点提出对应的映射优化方法。具体映射优化过程中,在算法设计阶段,尽量消除迭代间相关性保证数据并行度;在移植映射阶段,采用标量算法向量化以充分利用宽SIMD计算通道,采用地址映射代替内存拷贝以充分利用移动GPU中统一访存的优势;在深入优化阶段,结合Mali GPU硬件特点以及PMU性能剖析数据调整向量宽度、指令配比、指令类型以及局部工作组大小等代码细节以充分挖掘计算并行度,进一步提升程序性能。  本文不仅针对Polybench与Rodnia两个通用测试集实践了该优化策略,分别取得相对于各自优化前初始版本GPGPU算法1.75倍和1.17倍的速度提升。并且通过该方法对热点算子的加速,成功地在移动GPU平台完整实现手势识别应用,相比同平台CPU版本获得了平均8倍的速度提升,在输入图像分辨率不变的情况下处理帧率达到36帧每秒。实验证明了本文提出的基于Mali GPU的移动GPGPU优化方法可适用于较广泛的算法类型,尤其在数据并行度高、迭代间相关度低的算法中可取得较大的性能提升。
其他文献
在我国的种植业生产中,为了提高作物的产量,白80年代以来无机化肥的施用量逐年大幅上升,并且普遍采用连作耕种,导致近年来出现肥料边际效应明显下降、有时非但不能提高其产量
消费商是基于产消合一逻辑而产生的商业主体,其拥有消费者与经营者的双重身份,在共享经济中扮演着平台商与消费者之间实现无缝对接的粘结剂角色,其是弥补平台商营销功能不全
本文介绍了微机器人装配系统显微视觉的相关技术,着重讨论和研究了微机器人装配系统的自动对焦和深度信息提取,可应用于自动化微型零件装配、微操作以及集成电路组装等相关领
本论文对半绝缘GaAs光电导开关为偶极辐射天线产生高功率太赫兹电磁波的技术进行了研究,主要做了以下几个方面的工作:其一、对空间电荷电场形成的动态过程进行了研究,分析了太
氮化铝(AlN)作为一种重要的Ⅲ族氮化物,是一种直接带隙半导体材料,其禁带宽度为6.2eV,在蓝、绿光和紫外光高频段的光电子器件领域有着极大的应用潜力,受到了人们极大的关注。其极高的热导率(320W·m-1·K-1)大约是Al203的10倍,非常适合于作为大功率器件、集成电路的散热材料;其低的热膨胀系数(4.3×10-6℃),可以很好的与硅匹配,可以广泛应用于半导体器件的衬底材料;其高的机械强度、
本文通过对荣华二采区10
期刊
以高密度、高性能和低成本为特征的新型三维异质集成封装技术在物联网、消费类电子等领域具有重要的应用前景,已成为当前发展的热点。其中,汽车工业高速发展,迫切需要高性能、低
随着空间技术的不断发展,研究半导体器件与电路的辐射效应,提高其抗辐射水平已经是近年来国内外微电子学领域十分重视的课题。而DC-DC转换器作为电子设备的核心部分,其性能受辐射影响情况直接关系到整个系统的稳定性,因而研究它在受辐射影响后电性能变化情况,提高其抗辐射水平具有极其重要的意义。本文所做工作为研究DC-DC转换器电路的辐射性能,仿真分析各电路模块受影响后基本电性能的变化情况,针对实际电路提出改
本文在设计一种基于MV05的单芯片多处理器并行处理架构的基础上,更是设计出单芯片多处理器的任务调度管理模块和核间通信模块,并嵌入到单芯片多处理器系统中,最大化地支持程序的
本研究对昆明地区分布的下垂虫草Ophiocordyceps nutans(Pat.)G.H.Sung,J.M.Sung,Hywel-Jones& Spatafora生境进行调查,共调查昆明野鸭湖和昆明西山4个样地,发现下垂虫草分布在常