基于深度强化学习的移动平台在已知环境下的路径规划

来源 :西华大学 | 被引量 : 0次 | 上传用户:cfsjy4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长久以来路径规划技术都是移动平台控制导航中最难以处理的问题。强化学习作为一种自身更新能力较强的机器学习方法,非常符合用于应对移动平台路径规划中的各种情况。基于深度强化学习的路径规划方法则是解决此类问题中的一类新方法,通过实现移动平台的智能化控制,不仅能大大提高其自主性和鲁棒性还能扩展其应用范围。本文是基于深度强化学习的应用型研究,针对路径规划问题中传统算法设计复杂,原有强化学习的方法难以收敛的问题,而将DDPG算法的框架应用在移动平台上,并分别通过二维环境和三维环境下的仿真验证了此方案的有效性和实用性。首先,对强化学习和深度学习的基本理论和相关算法做了详细的讲解和推导,并推出了第一个深度强化学习算法;然后,针对基于值更新算法的不足,引出了基于策略更新的算法,通过将二者的合并推导出了本文所使用的算法框架,并对使用该框架的DDPG算法做了详细的推导。最后,基于该算法框架设计并训练了一个既具有感知能力又具有决策能力的智能体,通过让智能体控制移动平台分别在二维环境和三维环境中进行了仿真,实现了端到端的训练模型,验证了算法的有效性和实用性。
其他文献
以马来海松酸(MPA)、八甲基环四硅氧烷(D4)、γ-氨丙基甲基二乙氧基硅烷的水解物(HAPMS)和二甲基二甲氧基硅烷(DMDMOS)为原料,在不需要溶剂的条件下,采用一锅法合成了一种侧基含有MPA基
<正>高中物理是一门以实验为基础的学科.在高中物理教学中开展演示实验,能使抽象的知识变得更加形象化,有利于学生获得更多的感性认知,从而使学生在观察实验中理解物理知识,
目的:探讨手术病人的心理问题及护理对策。方法:通过对200例择期手术病人进行观察,发现均存在不同程度的心理反应,针对这些反应,采取了一系列的护理措施。结果:解除了病人手
二战后由美国等西方国家所创立的国际制度仍是当前国际秩序的基础。长期以来,国际社会不断要求中国遵守国际秩序下的各种规则。从历史的视角观察,中国对国际秩序及自己的地位
为了使阵列式激发极化接收机采集通道一致,需要设计特定的校准信号源,为此设计和实现了以USB2.0为通信协议的类激发极化信号源。系统以直接数字合成技术(DDFS)理论为基础,采用
雨滴微物理特性及降雨动能是揭示降雨物理本质的重要特征量,亦是开展侵蚀定量分析与建立侵蚀量预报模型的基础。采用粒子成像瞬态测量可视化技术观测自然降雨雨滴,结合计算机
通过对3批共1626个海兰褐父母代种蛋进行试验,分析受精蛋和无精蛋、死胚及正常发育胚的种蛋品质差异,探讨种蛋品质对种蛋失重、死亡规律及孵化率的影响。结果表明:①在孵化期
14到18周岁的农村留守儿童极易成为违法犯罪的行为人,18周岁以下的留守儿童也容易频繁遭受违法犯罪的侵害,刑事法律援助制度功能的发挥对于保护其合法权益至关重要。农村留守
细胞是执行生命功能的基本单位,各种生物分子在脂膜包被的区域内有序协调地行使功能,从而构成了生物活动的基础.脂分子层不仅具有隔绝内外形成微环境的屏障作用,而且还通过受
赵登用,这个高考失利后以摩的为生的巧家青年,为了挣得两名凶手支付的100元,他背着双肩包走进了爆炸案现场。结果是,他不但被炸得粉身碎骨,还背负了"犯罪嫌疑人"的罪名3个月。