深度强化学习优化的人工势场算法在室内逃生路径规划中的应用

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:tlkj168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
室内火灾复杂多变,在应对完全未知的复杂室内环境时,传统人工势场法因为自身缺陷很难成功完成路径规划的任务。近年来,深度学习和强化学习在不断的向前发展,用深度强化学习的方法来实现智能体路径规划任务一直是前沿热点研究。传统的人工势场法应用到复杂的、未知的环境时,会因为目标不可达或局部极值点等原因导致寻路失败。而深度强化学习是通过让智能体在不断“犯错”的过程中,学习到相关躲避障碍物以及寻找目标点的策略,最终获得一条最优路径。因此本课题开展了基于深度强化学习优化的传统路径规划算法人工势场法研究问题。论文主要研究如下:(1)本文利用深度强化学习来优化人工势场法,并根据深度强化学习分类的不同,分别提出了基于策略的人工势场优化方法(DDPG-APF)和基于值的人工势场优化方法(DQN-APF)。设计特殊的奖励函数,当智能体在势场中陷入困境时,通过不断给予智能体负奖励值来引导智能体脱离困境;针对不同规模场景下的深度强化学习优化人工势场法(DRL-APF)算法需要重复训练,消耗大量算力的情况下,本文提出在DRL-APF算法中引入迁移学习的机制,将大规模场景拆分成若干个小规模场景,通过小规模场景的学习将所学策略运用到大规模场景中,来提高DRL-APF算法的训练效率。(2)实验选取黑龙江省哈尔滨市地理信息产业园为研究区域进行环境仿真实验,结果表明:两类优化算法均可在复杂环境中实现路径规划;2个随机障碍物环境下,基于策略的优化方法(DDPG-APF)规划完整路径所需时长要比基于值的优化方法(DQN-APF)少13.2秒,效率高出24.4%;为证明算法的泛化性,将随机障碍物分别增加到4个和6个时,DDPG-APF规划完整路径所需时长分别比DQN-APF少7.2秒、10.1秒,效率高出11.7%、15.9%,这表明两个优化算法均有较好的泛化能力。(3)进行了不同规模场景下引入迁移学习前后的DRL-APF算法路径规划训练效率实验,实验表明在未引入迁移学习前,在60m*90m、70m*70m两个场景下训练智能体,40000回合奖励值仍未收敛,而引入迁移学习后,两个场景中智能体获得的奖励值均在20000回合之前收敛。证明了本文在DRL-APF算法中引入迁移学习的可行性。
其他文献
糖尿病视网膜病变、心血管疾病、高血压、动脉硬化等多种疾病对视网膜血管产生不同影响,可通过分析视网膜眼底图像中血管的长度、宽度、角度、弯曲度和分支形式等特征来诊断。人工分割视网膜血管是一项繁琐、复杂和专业性极强的工作,且分割标准主观性强。为提高医生的诊断效率和降低误诊率,需借助计算机辅助诊断系统,其核心是设计先进的分割算法,以实现快速自动化视网膜血管分割。于是,本文分别提出了两种分割算法:基于多尺度
随着新兴技术的不断涌现和持续应用,中国制造业在过去十年间发生了翻天覆地的变化,在不断适应多变的社会需求和激烈的市场竞争的过程中,制造型企业慢慢从以量取胜向着以质取胜发展。质量意识的不断提升,使得越来越多的制造型企业开始注重生产的规范化与标准化,标准作业指导书由此受到越来越多的关注。然而,标准作业指导书在规范作业程序的同时,自身的制作流程却没有实现标准化作业,这是因为许多企业重点着力于生产线的优化改
目的研究行电子输尿管软镜下钬激光碎石术治疗的肾结石患者开展手术室人性化护理干预的效果。方法选取玉山县人民医院2019年8月—2020年1月期间收治的肾结石患者56例为研究对象,均接受电子输尿管软镜下钬激光碎石术治疗,采用双盲随机法分为研究组(28例)及对照组(28例)。对照组行手术室常规护理,研究组患者在此基础上接受手术室人性化护理干预,对2组患者术后恢复情况进行比较分析。结果研究组患者术后离床及
随着GNSS等新技术的发展,大坝变形监测已经实现全天候实时动态化,传统的大坝变形预测方法不能很好地对海量的监测数据进行处理。深度学习是在神经网络的基础上对网络层数加深的优化算法,目前已经在风电、空气质量、灾害预警等领域广泛应用。相对于传统的机器学习算法,深度学习强调从海量数据中进行学习,能够解决大坝变形数据中存在的高维、冗杂以及高噪等传统机器学习算法难以处理的问题。因此,非常有必要开展基于深度学习
随着互联网技术的发展,信息技术时代逐渐过渡到数据技术时代,数据在人们的生活中充当着越来越重要的角色。面对无所不在的数据,如何从当中获取到所需的信息变得十分困难了,这就是所谓的“信息超载”问题。传统的推荐系统在一定程度上缓解了这个问题,通过分析用户的历史行为,从海量的数据中分析出用户的偏好,并把具有用户偏好的物品推荐给用户。然而在实际应用中存在数据稀疏、冷启动等问题,它会导致推荐系统准确率低、推荐单
近年来,人工智能已成为了人们生活密不可分的一部分。随着科技的不断发展与进步,计算性能的不断提高,深度学习的发展更是迅速,而生成对抗网络作为深度学习的重要组成部分,在计算机视觉领域取得了众多成就。同时,在物质生活得到满足的当今社会,越来越多的人对动漫领域产生浓厚的兴趣,而生成对抗网络在动漫领域的应用也得到了更多人的关注,如人物图像的动漫风格迁移以及动漫头像的生成等。但是在动漫头像生成方面,仍然存在两
杨梅是浙江省重要的农果经济作物,稳居果树产值第一。然而由于杨梅树大多种植在山地丘陵地区且种植分散,致使果树种植与管理耗费大量的人力物力,因此采取自动化的方法提取杨梅树株数,实现大规模、分散果园的高效管理。但是使用卫星遥感图像提取果树往往面临方法流程繁琐、人力成本高、耗时长等问题。随着计算机软硬件的发展,基于深度神经网络的目标识别方法逐渐应用于农业、交通、医疗等行业。本文提出应用深度神经网络YOLO
目标检测是计算机视觉领域的重要研究方向之一,广泛应用于工业生产中。在检测任务中,对于一张输入图片,检测算法通过学习来区分图片的前景和背景,然后从背景中分离出感兴趣的目标物体,进而判断物体所在的具体位置和所属类别。然而由于小物体面积小分辨率低,使得对于小目标的检测精度不能达到理想的效果。针对小目标检测的问题,本文基于SSD(Single Shot Multi Box Detector)模型做出改进,
随着计算能力的提升,计算机视觉相关技术发展迅速。图像合成技术作为重要其中一个重要分支,同样发展迅速。本文深入研究了图像合成相关技术,介绍传统模型和基于深度学习的图像合成模型实现原理,并总结归纳各自的优势和不足。同时以复杂场景图像生成为主要研究对象,介绍了基于不同条件的图像合成方法实现,以及它们在各自领域的应用和已经取得的成果,并重点介绍了它们在实现包含多个前景对象的复杂场景图像生成任务上的优势和不
语义分割是图像理解的关键部分,是一项基础的计算机视觉任务,其广泛应用于自动驾驶、医疗图像分析、智能监控等领域。现有的语义分割方法大多数都是全监督语义分割方法,全监督语义分割方法需要大量的像素级标注来训练语义分割网络,然而获得大量具有像素级标注的图像集需要很大的时间和人力成本。为了降低人力和时间昂贵的成本,研究者们提出弱监督语义分割方法。弱监督语义分割方法仅仅只需要图像类别等弱标签去训练分割网络,所