针对机器人觅食任务的强化学习算法及其仿真研究

来源 :'2008系统仿真技术及应用学术会议 | 被引量 : 0次 | 上传用户：jxsdvc6

【摘要】

：

针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏，不能对每个动作进行奖赏分配，无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR，关心的是

【作者】

：

陈宗海[1]段家庆[1]任燚[1]罗杨宇[2]李成荣[2]

【机构】

：

中国科学技术大学自动化系，安徽，合肥，230027

【出处】

：

'2008系统仿真技术及应用学术会议

【发表日期】

：

2008年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏，不能对每个动作进行奖赏分配，无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR，关心的是完成任务过程中的每个动作和趋势，实时对其进行奖赏．并提出了一种基于过程奖赏和优先扫除PrioritizedSweeping-PS的强化学习算法PS-CR。借助机器人觅食任务进行了仿真研究，并与Q学习算法、基于过程奖赏的Q学习算法Q-CR和优先扫除算法PS进行了对比．结果表明本文提出的强化学习算法在系统性能和学习速度上都有很大的提高，并能适用于动态环境．

其他文献

Colpitts混沌振荡器的分岔现象仿真分析

Colpitts振荡器有着丰富的动力学特性，当系统参数发生变化时，振荡器可经由倍周期分岔、切分岔与异宿分岔等趋于混沌．在给出参数Q改变情况下的分岔图与李雅普诺夫指数谱的基础上，

会议

混沌振荡器分岔现象混沌动力学特征李雅普诺夫动力学特性倍周期分岔异宿分岔系统参数指数谱相轨图切分岔分岔图验证基础典型

空间目标的红外成像仿真研究

分析了空间目标所处的外部环境对其红外特性的影响，并在SensorVision辐射度方程的基础上给出了空间目标的辐射度计算公式．利用SensorVision模块完成理想情况下的红外成像效果，再

会议

空间目标红外成像辐射度方程影响因素外部环境模块计算公式红外图像红外特性仿真结果成像效果成像过程条件讨论模拟理想基础分析

行星状星云的三维重建

结合天体物理学对行星状星云研究成果，设计一个径向基函数网络，对观测得到的行星状星云NGC7293内部的采样数据进行训练，建立起一个符合星云内部气体密度分布规律的数学模型，并据

会议

聚丙烯腈脱单生产过程混合建模

根据聚丙烯腈生产流程中脱单产物在线检测的需要，建立脱单过程软测量模型．针对脱单过程机理模型参数难以适应不同工况条件的缺点，利用支持向量机对机理模型的参数进行辨识，建立一

会议

聚丙烯腈生产过程机理模型支持向量机混合模型自适应能力软测量模型在线检测预测精度生产流程模型参数过程机理工况条件仿真实验产物辨识

听觉系统内毛细胞Meddis模型的分析与仿真

在介绍哺乳动物听觉系统模型的基础上，重点讨论了内耳毛细胞Inner Hair Cell，IHC的功能及其Meddis模型，对模型的数学描述进行了深入的分析，并利用电子学的方法来模拟其内部的信号

会议

基于GL Studio的通信装备建模与仿真研究

通信装备建模与仿真的实现，是受训人员进行逼真训练的基础．为高效逼真的实现在研通信新装备的建模与仿真，文中首先从渲染速度、渲染质量、模型精度、通用性、是否支持二次开发与

会议

复杂地形山谷气流的动态仿真

大气环境仿真是综合自然环境SNE仿真的重要组成部分，在武器系统优化设计，军事系统模拟演练以及防灾、减灾的决策评估等方面具有重要作用。大气环境仿真的可信性依赖于大气环境

会议

基于连续时间系统仿真的神经网络学习算法

从连续时间动力学的角度，研究了多层前馈神经网络的学习问题。基于李雅普诺夫稳定性分析方法，建立了一种神经网络权重参数连续调整的学习算法，并基于连续时间系统仿真的思想，给出

会议

基于UML的面向设计概念模型研究

随着分布式仿真技术在作战仿真领域的广泛应用，军事概念模型在仿真系统开发过程中的作用日显重要．针对军事概念模型概念、建模方法的多样化问题，在分析军事概念模型内涵及开发过

会议

试论实验室在培养大学生创新能力中的地位和作用

本文就实验室、实验教学与大学生创新能力的培养做了详细论述,指出实验室环境条件、实验教学的改革、师资队伍的优劣是培养大学生创新能力的关键.

期刊

实验教学创新能力实验环境实验教学改革

针对机器人觅食任务的强化学习算法及其仿真研究

与本文相关的学术论文