【摘 要】
:
随着信息技术的发展,图像处理算法的计算复杂度在不断提升。与此同时,海量的信息处理对实时处理系统的计算能力提出了越来越高的要求。图形处理器(Graphics Processing Unit,GPU)具有并行处理能力强、吞吐率高等优点,广泛应用于图像处理硬件系统中。论文面向二维卷积和二维傅里叶变换(Fast Fourier Transform,FFT)两个代表性的图像处理算法,研究其在嵌入式GPU上的
论文部分内容阅读
随着信息技术的发展,图像处理算法的计算复杂度在不断提升。与此同时,海量的信息处理对实时处理系统的计算能力提出了越来越高的要求。图形处理器(Graphics Processing Unit,GPU)具有并行处理能力强、吞吐率高等优点,广泛应用于图像处理硬件系统中。论文面向二维卷积和二维傅里叶变换(Fast Fourier Transform,FFT)两个代表性的图像处理算法,研究其在嵌入式GPU上的并行加速技术,并完成了相关的图像处理应用系统开发。首先,论文基于二维卷积和二维FFT算法,分析了其在GPU上运行的性能瓶颈,建立了相关的性能分析模型。在此基础上,利用该模型分析了指令流水线、全局内存访存、共享内存访存执行时造成性能瓶颈的原因,分析潜在的性能优化空间。实验表明,基于该模型得到的分析结果与GPU实际执行结果的误差在5%~18%之间。其次,在利用该模型分析GPU上二维卷积算法执行的访存瓶颈的基础上,提出了基于轮转策略的全局内存访问技术,完成了二维卷积算法的并行程序开发,实现了接近100%的全局内存带宽利用率。实验结果表明,在卷积核尺寸为7×7至11×11的情况下,该卷积程序的性能较NPP、CUFFT等库函数提升了9~14倍。接下来,研究了一维FFT的分解基数选取、旋转因子计算、倒序排列等各个阶段的并行执行特征,并提出了以蝶形算子访存跨度为依据的共享内存访问机制以及批量列处理机制,解决了共享内存访问效率过低和二维FFT列变换时的内存访问不连续问题。实验结果表明,在图像尺寸从1024×1024到4096×4096像素的情况下,该FFT程序的性能较CUFFT库函数提升了5%~13%。最后,基于上述研究成果,我们在NVIDIA JETSON TX2嵌入式板上开发了图像前端处理和傅里叶叠层显微成像(Fourier Ptychographic Microscopy,FPM)两个实际应用,分别达到4K@60FPS和4MP@34FPS的处理速度,满足了系统的实时性需求,验证了论文研究工作的有效性。
其他文献
近年来,目标检测在智能安防、智慧城市、智能工厂、智能汽车等多个领域应用广泛。由于目标检测的核心技术是深度学习,所以目前大多数的目标检测模型部署在服务器端,但这种方式存在两个弊端:一是随着部署的需求量骤增,大量配置高性能服务器在经济上会造成巨大压力;二是摄像机等边缘设备采集的待检测数据需要经过网络传输才能到达服务器,当数据量非常庞大时会影响到检测的时效性。随着边缘设备的日渐流行,其小体积、高性价比、
自人工智能技术发展以来,各领域都在寻找有利的结合点,最近几年,人工智能技术也不断涌现出与医疗领域结合的趋势,同时大量的数据资源、快速的计算能力、算法的不断优化等基础准备的成熟与创新也成为发展医学领域智能化技术的重要基石。在这种趋势下,我国医疗智能化的发展面临着前所未有的机遇和挑战,图像和语音技术的成熟为医疗行业带来新的机遇,但是由于语言的复杂性使得自然语言处理在医疗领域的应用仍然面临着诸多挑战。例
行人再识别是智能监控研究的重点之一,它是利用计算机视觉相关技术,判断不同摄像头间非重叠区域是否存在同个行人,进而可实现可疑人物的快速检索、预测异常事件等相关分析。然而在实际应用场景中,由于存在光照变化、背景杂乱、行人姿态多样以及遮挡等问题,行人再识别研究存在诸多挑战,引起学术界和工业界广泛关注。如何提取更鲁棒且可区分度高的行人特征以提高行人的识别效果,成为该课题的研究核心之一。利用手工设计得到的特
随着物联网的发展,边缘计算已成为时下的研究热点之一。边缘计算是在靠近用户或数据源头的网络边缘,包含了网络传输、计算任务、数据存储存储和应用等功能的平台,其核心在于将部分计算、网络或存储任务从云计算中心转移到边缘设备上。相比云计算,边缘计算具有更实时、更快速的数据处理能力和响应能力,部署成本更低,对网络带宽的压力也更小。但是,传统的边缘计算框架也有其潜在的问题。由于边缘节点承担了一部分计算任务,云平
资源描述框架(RDF)作为表示和记载图结构数据的技术规范之一,被广泛应用于知识图谱、社交网络、金融风控等场景。用户使用RDF图查询系统进行信息检索,发掘图数据集中特定的信息。随着人类进入大数据时代,实际场景中的图数据集正变得日益庞大。海量数据给RDF图查询系统带来了存储效率上的挑战:如何在保障系统性能的前提下提升系统的存储效率,用更少的空间存储更多的RDF图数据,降低系统运行的硬件成本,成为学界和
资源描述框架(RDF)是W3C组织制定的一个标准数据模型,用来表示万维网上的关联数据。RDF将相互关联的数据描述成一系列的三元组,这些三元组构成一个高度连通的图(RDF图)。用户可以通过SPARQL查询语言检索RDF数据。在线图查询是访问关联数据的重要方式,其目标是在图数据中找到符合查询约束条件的顶点集合。图查询任务可以分为两种类型:小查询和大查询。小查询在执行时只需要遍历一小部分顶点和边,而大查
目标检测技术在计算机视觉扮演着根本性的作用,是许多高级视觉任务的基础,同时在许多场景中得到大规模的应用,像智慧城市、智慧医疗、智慧农业等。虽然随着近些年深度学习的发展,目标检测的性能得到显著的改善,但是现有方法依然面临着目标尺度及场景多样复杂性的挑战。本论文针对现有目标检测算法的不足,分别从网络结构及损失函数两方面提出具有现实意义及原创性的算法。一方面,现有的目标检测算法一直面临着对小尺度且模糊的
操作系统是系统中最重要的部件之一,承载着从桌面软件到服务器程序的各种应用,确保应用的稳定、高效、安全运行。目前服务器中大部分系统都使用宏内核,例如Linux,其共享内核地址空间的架构减少了不同模块交互的性能开销,然而这种宏架构却使得其安全风险越来越突出。代码量的巨大导致内核几乎不可避免的包含诸多漏洞,隔离性的缺乏则使得内核安全性更加脆弱,且内核的权限极高,一旦其中任何一个部件被攻破,整个系统都暴露
三维手部姿态估计指的是从图像数据、深度数据、动捕数据或其他传感器数据中获取信息,并使用计算机图形学、计算机视觉、神经网络等算法来还原人体手部关键点位置关系,从而重建包括手部位置、骨架约束等在内的手部三维姿态信息。三维手部姿态估计技术可以应用于多种领域,例如影视动漫、远程操控、虚拟会议等。另一方面,随着虚拟现实的发展,越来越多的学者意识到虚拟现实技术在教育领域上的优势。近年来,虚拟现实在教学实验上的
环境智能和普适计算的进步正推动着智能空间的空前发展,而智能空间针对特定用户实现服务个性化的前提正是对与之交互的用户的识别,用户识别和认证对于增强智能空间的定制化能力以及加强其安全性具有重要意义。目前广泛应用的用户识别方式是基于用户生理特征信息(例如人脸、指纹等)的,但这类基于生理特征的用户识别方式往往依赖用户的主动参与并且存在伪造攻击的风险,例如,通过佩戴仿真面具会将人脸识别系统攻破。实际上,除了