基于进化和强化学习算法的动态路径规划研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:jyjcccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器人技术的日新月异,大量的机器人被应用到军事、商业、民生各大领域,机器人的智能控制问题成为研究热点。在动态变化路径规划环境中要求智能体能对环境的变化拥有实时决策能力,基于深度学习的强化学习算法在复杂环境任务中有很好的表现。现在,深度强化学习已经广泛应用于解决智能控制问题,但是深度强化学习方法通常有三个核心问题:稀疏回报环境下的时间信用分配,缺乏有效探索,对超参数极其敏感的收敛特性。针对上述问题本文提出了改进的群体智能深度强化学习算法。群体智能算法评价值函数的设定能够直接评判最终结果的好坏,在时间信用分配的问题上有很好表现;同时这种方式也能让算法收集的经验偏向于高长期回报,使得探索经验更加便于训练;群体智能算法只需要考虑搜索时间的问题,能减少算法收敛对超参数的依赖。实验结果表明,该方法具有一定的理论和实用价值。主要研究内容:(1)提出一种改进的遗传神经网络强化学习算法。在算法中提出了符合强化学习特性的适应性函数,提出了分段权重选择交叉的方法繁衍子代和利用梯度信息加快遗传算法对解空间搜索的方法。并在修改的稀疏回报深度强化学习实验环境对算法性能进行了实验验证。(2)根据群体优化的思想,提出了另一种粒子群优化神经网络的强化学习算法。为了应对深度强化学习中网络呈现的伪最优特性,提出了全局历史前几表(所有历史个体中评价前几的个体)的方式,使得算法更平稳。最后在修改的稀疏回报深度强化学习实验环境对算法性能进行了实验验证。(3)在动态路径规划问题环境对算法进行了实验验证。针对一个连续动作空间的动态路径规划环境,分别对非稀疏情况和稀疏情况下进行了验证。实验结果表明,基于群体智能优化的深度强化学习方法能很好的完成不同回报形式的连续动作空间路径规划问题。
其他文献
随着"宠物友好"理念的兴起,宠物友好型家具开始在传统家具设计领域开辟出一条新的发展道路。以宠物猫家具为视角,不难发现现有的设计普遍存在设计本位不确定、家居环境不兼容
在教学中,教师应该适当放手,把问题交给学生,把时间还给学生,给学生创设一个自我展示的舞台。只有这样,才能让学生在课堂上凸显生命的灵动,焕发生命的活力,激励生命的创造,丰富生命的
逆合成孔径雷达成像常用的运动补偿方法是利用距离像的相关性进行包络对齐。但当目标速度或加速度较大时,散射点走动较大且距离像发散程度严重,此时直接利用距离像的相关性进行
我国现有地市级报纸848家,其中地市级党报310多家,其数量在中央、省和地市三级党报中占了绝大多数。数量众多且直接覆盖一个特定区域的地市级党报被认为面临着极好的发展前景。
介绍了煤巷玻璃钢支架设计,对煤巷玻璃钢支架井下试验进行了总结研究,分析了矿压观测结果,指出煤巷玻璃钢支架今后改进的途径.
"5·12"特大地震灾害,在对人的身体造成伤害的同时,对人的心理创伤也非常严重,如不进行积极的心理干预和救助,就会产生不良后果。心理干预和救助的工作点多面广,情况复杂,需
为了大力推进建筑产业现代化,加快以绿色建造引领建设行业转型发展步伐,提升建设科技自主创新能力,全面促进绿色建筑事业繁荣,在中国国际高新技术成果交易会(简称“高交会”)承办单位深圳市中国国际高新技术成果交易中心的大力支持下,深圳市住房和建设局、深圳市建筑工务署作为指导单位,深圳市建设科技促进中心、深圳市绿色建筑协会作为合作组织单位,于第十七届高交会上继续推出了“绿色建筑主题展”。  《中国经济信息》
造就XP系统13年辉煌的因素逐渐变为发展的掣肘,被微软断腕放弃,却又引起中国PC用户的安全危机。
提出一种对雷达辐射源信号进行符号化分析的雷达辐射源信号脉内特征提取方法,该方法能够从信号中快速有效地提取定量信息。将符号化过程中反映信号自相关特性的采样时延和反
长远来看,新浪微博最大的难题是如何将社会影响力在商业化中持续变现,以及怎样应对类似微信这样社交网络的冲击。  和阿里巴巴、京东商城相比,新浪微博欲赴美上市的消息显然没有激起市场太多的回应。  3月15日,新浪微博正式向美国证券交易委员会提交了上市申请文件,计划融资5亿美元,以迈出上市的重要一步。无论是5亿美元的融资计划,还是社交媒体的资本故事,都已经不具吸引力。分析人士更倾向于认为:曾经中国最为风