基于模拟退火策略的强化学习路径规划算法

来源 :现代计算机 | 被引量 : 0次 | 上传用户:fdgbh54g45g44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统Q(λ)学习算法在解决路径规划问题时,算法收敛速度慢且容易陷入局部最优的问题,提出动态调整探索因子的方法。将模拟退火的思想融入Q(λ)学习算法的动作选择策略中,平衡路径规划中的探索与利用的平衡关系,提出基于模拟退火的Q(λ)学习算法(SA-Q(λ))。学习前期较大探索因子帮助智能体较快的理解环境,避免算法陷入局部最优;学习后期较小的探索因子帮助算法较快地收敛至最优路径。仿真实验表明,改进后的SA-Q(λ)学习算法能够规划出最优路径,且算法收敛速度更快。
其他文献
<正> 三峡百万移民是一项复杂的系统工程,涉及到很多方面,如移民资金管理、移民安置与外迁、企业迁建、城集镇迁建、专业设施复建、环境保护、移民工程、耕地占用税的返还与
随着现代技术的发展,社会对技术工作提出了更多的挑战,对于数控编程的人才也有了更新的要求。中职院校中现有的数控编程课堂教学虽然有其自身的特点,但是在新形势背景下,仍有
根据大伙房水库输水(二期)工程的实际情况,介绍了对长期工作在水中或具有腐蚀性土壤中的预应力钢筒混凝土管道(PCCP)实施阴极保护在设计、施工和PCCP管制造与安装中应特别注意的问
<正> 一、前言崩岗是我国南方水土流失的一种特殊现象,是指山岗的坡面从山脚到山顶发生严重崩塌的一种土壤侵蚀作用。虽然它在水土流失中所占的百分比不大,但所造成的泥沙流
对野大豆的形态习性、资源价值以及栽培技术进行了较为详细的综述,这对保护和合理开发这一濒危野生种质资源,实现生态效益和经济效益的统一具有重要意义。
开发了测量热敏电阻温度特性曲线的硬件电路。使用DSl8820作为温度传感器,编写单片机与PC机间的通信程序,该温度值经串口发送到计算机中。电压信号利用声卡采集到计算机中,由Lab
崩岗是我国南方水土流失的一种特殊现象,它使许多山岗逐渐崩塌而被侵蚀,造成大量泥沙流失,其危害性甚大,后果极为严重,是泥沙控制中亟待研究解决的重要课题之一。本文对我国
滋味稀释分析方法是近几年来发展起来的一种新技术,它是将高效液相色谱法等分离分析方法与感官分析技术相结合分析食品中一些非挥发性滋味活性成分的一种有效方法,目前已经用这
目的了解潍坊市大气PM10污染状况及其中Pb、Cu、Ni、Mn、Cr、Cd等重金属含量,为该市大气颗粒物污染防控提供基础资料。方法 2010年12月至2011年12月,在潍坊市不同功能区布点,
【正】 《燕子赋》在敦煌讲唱文学中共有两篇。一篇以四言为主,间用六言;一篇通篇为五言,都是韵文作品。为了论述的方便,我们称杂言体为A作,称五言体为B作。它们都是写的燕雀