基于深度迁移强化学习的局部路径规划技术研究与实现

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：wilee818

【摘要】

：

【作者】

：

宫鹏

【机构】

：

国防科技大学

【出处】

：

国防科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人工智能技术的又一次爆发性增长,智能机器人正从传统工业制造领域向日常生活的各个方面迅速扩展。如何设计性能更好、泛化能力更强的智能控制算法,已经成为学术界和工业界的热点问题。近年来基于深度学习、强化学习的智能控制算法已经成为解决该问题的一个重要研究方向。智能体路径规划是智能控制领域中的一个典型问题,旨在规划一条从起点到目标点的无碰撞路径,同时优化性能指标,使得成功移植到真实环境中进行实际应用。为此,本文以未知环境智能体路径规划为背景展开研究,提出一种基于辅助任务机制的深度强化学习奖励塑造方法和一种基于领域数据模式随机化的深度强化学习迁移方法,构建了一个基于深度迁移强化学习的局部路径规划原型系统,在此基础上,对本文研究成果进行了实验验证,本文的贡献主要包括三点:（1）针对强化学习路径规划任务中智能体探索环境存在的稀疏奖励问题,提出了一种基于辅助任务机制的深度强化学习奖励塑造方法。该方法设计三种辅助任务:循环路径检测,状态价值回放以及智能行为控制。循环路径检测可以有效提高智能体对未知环境的推理能力以及避免智能体重复路径出现;状态价值回放提高了算法对各个时刻智能体所处状态的状态价值估计能力,增强智能体对于后续状态的预测能力;智能行为控制则使智能体更容易从经验回放中总结经验,学习到具有更高奖励收益的动作策略,提高智能体选择效率。（2）针对模拟仿真与真实环境之间存在的领域差距问题以及智能体传感器失效等情况带来的数据长期/间歇性缺失的数据模式问题,提出一种基于领域数据模式随机化的深度强化学习迁移方法。该方法通过随机化数据联通的分布模式实现数据增强,同时通过在决策模型中引入基于循环神经网络的记忆机制,缓解由于数据模式变化带来的环境分布抖动,提高智能体在数据模式变化触发的部分可观察场景下的决策能力。（3）基于上述研究成果,设计并实现了一个基于深度迁移强化学习的局部路径规划原型系统,搭建实验环境并且构建实验场景,对本文研究成果进行了实验验证。结果表明,相比于现有方法,本文所提出的模型和算法在性能、鲁棒性等方面均有明显提升,并且具有一定可扩展性。

其他文献

基于深度学习的高空间分辨率遥感影像云检测研究

大量的云层覆盖严重影响卫星遥感影像的地物判读,为有效提高资源利用率,云检测已成为分析卫星遥感影像数据的首要工作。高空间分辨率遥感影像能够精确观察小空间尺度上的地表细节,但与此同时也对云检测技术提出更为严苛的要求。大多数高空间分辨率遥感影像仅含有红、绿、蓝、近红外四个波段,传统需要依赖大量特定波段的云检测算法难以对其发挥优势。因此,本文在研究国内外相关云检测算法的基础之上,结合深度学习技术提出具有普

学位

基于深度学习的通信辐射源个体识别技术研究

在通信对抗领域中,如何对通信辐射源个体进行准确识别一直以来是一个重点研究问题,是目标侦察系统亟待解决的关键技术之一,它依照通信发射器设备的物理层特性差异来分类识别不同的辐射源个体。通信辐射源个体识别技术对于通信网络结构的分析、目标威胁等级的评估和战术战略的决策等方面都有着关键性作用。在日益复杂的电磁环境下,传统的通信辐射源个体识别方法存在的自适应性不足和鲁棒性差的问题,导致其不能满足现代战场环境下

学位

基于自媒体传播的昆曲文化元素重构与设计研究

2001年5月,昆曲被列为“人类口述的世界非物质文化遗产”名录,其传承六百年的文化价值得到世界认可。在这种背景下,国家和政府开始制定政策大力保护昆曲文化,以免昆曲逐渐消失在大众视野中。为了快速建立起大众对于昆曲的文化印象,设计师们从昆曲的众多文化元素中提取最为明显的视觉符号,进行设计并不断强化。虽然达到了最初的目的,但随着时间的推移,也让人们产生了严重的视觉审美疲劳,这为昆曲的有效传承带来了莫大阻

学位

2021年北美地区中密度纤维板产能概况

对北美地区中密度纤维板产能进行分析，并描述北美国家中密度纤维板工厂变化情况。

期刊

2021年欧美人造板市场概况

＜正＞联合国粮农组织（FAO）和联合国欧洲经济委员会（UNECE）联合发布《林产品市场报告（2021—2022年度）》。该报告提供了联合国欧洲经济委员会区域（欧洲、北美、中亚和西亚国家）市场的全面分析，范围涵盖了原木、锯材、人造板、纸、纸板以及木浆，通过政策分析，评估主要趋势和驱动因素，其中人造板情况如下。

期刊

基于深度强化学习的多机器人群集协同控制研究

多机器人系统在各个领域有着广泛的应用,通过多机器人系统的群集控制实现大量自主个体的协同工作且保证其安全变得至关重要。受到生物群体行为的启发,本文对多机器人群集控制问题展开研究,针对传统群集控制算法需要建立精确模型和控制律设计工作较为繁琐的缺点,采用深度强化学习的方法实现多机器人群集控制。首先,针对多智能体深度确定性策略梯度算法学习效率低下、收敛速率慢的缺点,本文引入了优先经验回放机制,提出了强化学

学位

应用型高校风景园林专业服务“乡村振兴”联动式合作育人教学路径研究

随着《乡村振兴战略规划（2018—2022）》的实施和大型城市减量发展的转型，相应地，风景园林专业在规划设计领域的发展将由面向城镇绿地逐步向乡村建设转变。但由于大多数高校园林专业在课程设置和教学中不够重视，导致绝大多数学生都较为缺乏乡村设计方面的知识和能力。因此，我们需要研究在“乡村振兴”战略背景下，研究风景园林专业教学与该战略的关系，调整教学内容，构建面向“乡村振兴”战略的教学模式。结合高校、企

期刊

基于深度学习的高维稀疏带噪声数据分析方法研究

在信息化作战的条件下,各类传感器收集的战场信息往往受限于复杂的地理、气象、水文和电磁环境而呈现高维度、高度稀疏和带有大量噪声的特点,如何正确运用人工智能方法分析这些数据内部的本质关系和内在信息非常重要。在这项研究中,我们以自然界中的一种天然的高维稀疏带噪声的数据——单细胞RNA测序数据为切入点,研究一类能面向该类数据做到准确分析的通用算法。单细胞RNA测序（scRNA-seq）聚类对于识别细胞类型

学位

基于深度强化学习的敏捷卫星调度方法研究

随着航天技术的快速发展和在轨卫星的不断增多,卫星系统面临着更加复杂多样的任务需求和应用诉求,在以人工智能技术为引领的全球化技术革新与发展背景下,卫星系统呈现应急化、智能化和信息化发展态势,传统的方法很难适应新的需求与挑战。为了充分发挥卫星系统的效能,本文立足于敏捷卫星调度问题,以深度强化学习方法作为切入点,针对传统方法对任务特征信息和历史调度信息利用低这一基本缺点,面向任务优先级的精确统筹和高效的

学位

基于深度强化学习的多机器人未知环境探索算法研究

多机器人环境探索问题作为机器人研究领域的重要分支,旨在指导多机器人高效协同完成环境认知,被广泛应用于工农业生产。长期以来,该问题的研究主要基于随机、贪心策略等,虽有一定成效,但仍面临以下问题:（1）传统探索策略由于手工编码规则的局限性,在多机器人系统中难以利用环境结构等抽象信息做出高效决策和协同;（2）由于环境的变动或者规划的误差,机器人在移动过程中可能会受到未知障碍物等非预期状况的影响。针对这些

学位

基于深度迁移强化学习的局部路径规划技术研究与实现

与本文相关的学术论文