一种基于多GPU的并行A*搜索方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:morgan1912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
A*搜索是人工智能领域中的一项重要研究方向。随着时间的推移和计算设备的进步,对于A*算法的优化也在不断进行。近些年来,图形处理单元(GPUs)已经被广泛的用于加速大规模的计算任务,例如机器学习等。这些应用主要是利用了GPU的并行化特点。当前也已经有相关的研究利用GPU的并行特点来加速A*算法,但是主要是在单GPU上进行执行。虽然单GPU相较于CPU上的执行效率可以实现较高的提升,但是由于设备内存以及计算性能的限制,导致了加速效果会出现瓶颈。同时,计算的数据规模也会受到相应的限制。
  在本文中,为了解决当前单GPU上遇到的问题,本文提出了一种基于多GPU架构的A*搜索算法。首先关注于图数据的分区策略。具体来说,就是相较于单GPU的计算节点,多GPU架构下的计算节点存在多级的异构内存体系,因此,需要将图数据进行划分以适应这样的计算架构。文中针对网格图,有向图和排列组合类问题,采用了不同的分区方式以及通信方式,以使算法适应不同的数据类型。在数据分区之后,GPU设备将依据被分到的分区数据进行执行,并对open队列采用多个优先队列的方式来利用GPU的并行化特点,提升执行效率。同时,针对GPU中的重复结点查找问题,采用了ParallelHashingofReplacement的方法来解决。而面对可能存在的指数级别搜索空间导致的内存溢出问题,采用FrontierSearch的方式,牺牲算法的最优性来解决。本文的主要贡献如下:
  (1)本文实现了一种基于多GPU的A*搜索算法。依据多GPU计算节点存在的异构内存情况,针对网格图,有向图和排列组合类问题分别提出了不同的分区和通信方式。
  (2)针对A*搜索的运行特点,在GPU上采用了多个优先队列的方式来利用并行化特点,并针对GPU上可能出现的重复结点查找和内存溢出问题,分别采用了ParallelHashingofReplacement和FrontierSearch机制。
  (3)本文使用了广泛的实验来验证算法性能,并且选取了A*算法常用的三种应用场景,用于展示算法的性能。正如实验展示的效果,相较于单GPU架构,在多GPU环境下,对大规模的计算任务可以实现不错的加速效果。例如,相较于当前基于单GPU的A*搜索算法,当GPU的设备数达到4时,可以实现最高2.5×的性能提升。
其他文献
随着物联网技术的发展,越来越多的传感器出现在日常生活和工业领域中,海量传感器产生的时间序列数据具有动态性、异构性、大规模性以及时间依赖性等特点,增加了在不同物联网应用中的决策的艰难性。对物联网时序数据进行分析时,需要综合考虑多种类型的传感器数据来提升时序数据预测性能。同时,对物联网中传感器产生的大量数据存在的异常进行检测,也是亟需解决的问题,通过对物联网时序数据进行异常检测,可以降低异常造成的损失
学位
随着多模态数据的积累和深度学习的飞速发展,以视觉问答为代表的跨模态学习任务得到了广泛的关注和研究。视觉问答是指给定图像和自然语言的问题,对图像的视觉元素进行推理以推断出正确的答案。该任务是一项具有挑战性的多模态学习任务,因为它需要同时理解文本和视觉模态。因此,以细粒度的方式表示问题和图像在模型性能的提升上起着至关重要的作用。为了获得细粒度的表示方式,本文以注意力机制为基础设计了端到端的深度神经网络
学位
图像语义分割作为计算机视觉中一个非常重要的研究领域,对图像内容的分析和理解发挥着极其重大的作用。图像语义分割能够根据图像中不同的语义含义对每个像素点进行分类,使得属于相同类型对象的像素点被划分为同组。近年来,随着全卷积神经网络的出现和发展,图像语义分割技术取得了极大的进展。然而,现有的基于全卷积神经网络的图像语义分割方法目前仍存在着难以正确分割多尺度物体、丢失大量空间信息以及缺少上下文信息等主要问
教计算机"学习"并不像听起来那么遥不可及。计算机如何区分手写数字的图片?或者学习将文字分类?这些事情都可以通过将许多简单的单元串起来,建立起一个学习网络来解决。该研究领域称为“人工神经网络”,它能够解决许多非常复杂的问题,本文研究基于人工神经网络的文本分类问题。  本文的第一个贡献是为神经网络引入了一种新颖的激活函数。激活函数是人工神经网络架构的核心,它使人工神经网络能够对输入和响应变量之间的复杂
学位
TCP协议是大多数现代在线Web服务的底层传输协议,它的传输时间对Web服务性能至关重要。然而,数据包丢失会导致TCP传输性能显著下降,这极大地增加了Web服务的访问延时。本文通过分析全球最大互联网公司之一的真实Web访问数据发现,目前其传输过程中遭遇网络丢包现象严重,而TCP低效的丢包恢复机制使得传输时间显著增大。因此,之前的工作尝试在TCP上增加激进程度来加速丢包恢复,这些方案在快速恢复或超时
学位
随着人们对于信息化需求的不断提升,光接入网架构的升级与技术的提升已成为必然趋势。无源光网络(Passive Optical Network,PON)技术被视为光接入网的主流承载方式,其系统带宽、频谱利用率、传输速率与安全性等指标也被提出了更高的要求。将具备高频谱效率、低成本等优势的直接检测光正交频分复用(Direct Detection Optical Orthogonal Frequency D
近年来城市出租车和滴滴等浮动车因提供灵活、便捷的出行服务给城市公共交通带来极大便利,同时因装载GPS等传感设备而产生体量巨大的时空轨迹数据。当前,如何应用这些时空轨迹数据来优化移动出行受到学术界和工业界广泛重视。本文聚焦于分析大量的历史轨迹数据,为乘客推荐最优的等车方案,并给司机推荐最合适的行车路线,改进乘客的乘车出行体验。论文主要研究工作如下:(1)通过分析出租车的历史轨迹数据,提出基于路段的等
学位
聚类算法在探索数据可视化和发掘数据底层结构等领域得到了广泛的应用和发展。工业生产活动中产生了大量无标签的数据,对这些数据进行聚类具有重要意义。当前聚类算法在检测识别形状不规则的簇时,通常会面临着算法参数增加或聚类精度下降的问题。基于密度峰值的聚类算法利用决策图寻找密度峰值,从而可以发现数据底层结构。该类算法在高效识别不规则簇的同时,能够实现算法参数和聚类精度好的折衷。然而,当数据集中簇存在内部不均
近年来,社会的发展使汽车走进家家户户。车载应用服务场景多样化、服务质量稳定化、服务内容智能化的发展趋势使车载终端产生的数据流量呈指数态增长趋势。仅具有集中式云计算中心的车联网逐渐展现其效率低下的缺点。将计算下沉至边缘端的移动边缘计算(MEC)与车联网相结合的基于MEC的车联网具有低时延、低能耗、精准环境支持等优点,可解决上述问题、降低服务延迟、提供灵活服务、缓解网络压力、减少网络阻塞。其中使用任务
学位
随着移动互联网的快速发展,手机等移动设备已经能够实现多媒体处理、人脸识别、增强现实等复杂应用。移动终端由于体积较小,拥有的计算能力和电池储备都十分有限,因此不适合独立处理复杂计算任务。将复杂计算任务卸载至中心云上执行可以解决移动设备的这一问题。但是这种方式会增加核心网络上的网络负载,从而导致任务传输时间过长。而移动边缘计算是一种将云服务和功能转移到网络边缘的有效架构,该架构通过将终端用户的计算密集