基于Metropolis准则的多步Q学习算法与性能仿真

来源 :系统仿真学报 | 被引量 : 14次 | 上传用户：tlling06990702

【摘要】

：

强化学习是目前智能体和机器学习研究的热点。针对强化学习中标准Q学习算法更新速度慢的缺点,通过引入多步信息更新策略和模拟退火中的Metropolis准则,提出了一种新颖的多步Q学习算法,称为SAMQ算法。仿真实验表明,与现有的算法相比,该算法能够有效提高收敛速度,较好地解决智能体选择动作时面临的新知识探索还是当前策略遵循的关键问题。

【作者】

：

陈圣磊吴慧中肖亮朱耀琴

【机构】

：

南京理工大学计算机科学与技术学院

【出处】

：

系统仿真学报

【发表日期】

：

2007年06期

【关键词】

：

强化学习 Q学习模拟退火多步Q学习 METROPOLIS准则 reinforcement learning Q learning simulated a

【基金项目】

：

武器装备预研基金项目（413040502）,南京理工大学青年学者基金（NJUST200401）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

高校会计学教学如何应对会计准则的变化

新会计准则的出台增加了会计准则学习的难度,高校会计教学面临教师自身素质的提高、教材的选择等一系列的问题。本文就高校会计学教学如何应对会计准则的变化提出了一些自己

期刊

新会计准则国际趋同职业判断

SAR实时成像系统中方位向滤波器设计研究

方位向降采样滤波器作为机载合成孔径雷达(SyntheticApertureRADAR,SAR)实时成像系统中关键组成部分之一,其性能将直接关系到图像质量的优劣。由于受到运算代价、存储开销的限制,方位向降采样滤波器的阶数不能很高。如何在滤波器阶数受限的情况下,设计出满足实时处理要求的性能优异的滤波器是一个值得研究的问题。针对机载SAR实时成像系统应用,提出了一种新的方位向降采样滤波器设计方法,引入增

期刊

机载SAR实时成像系统方位向降采样滤波器最优准则增广拉格朗日函数Real-time airborne SAR imaging system azimu

支气管类癌行右肺下叶切除加中叶袖式吻合一例

1病例患者女，39岁，因“车祸伤及胸部1小时”人院。行胸部CT检查示右肺下叶不张，又行支气管镜检查示右肺下叶支气管开口处，见一圆形肿物，光滑，充血，取病理示炎性息肉可能性大。决定性

期刊

右肺下叶切除支气管类癌端端吻合术中叶袖式胸部CT检查支气管开口支气管镜检查

羟基喜树碱为主肝动脉栓塞治疗中晚期肝癌24例临床分析

期刊

羟基喜树碱TACE治疗肝癌

安全培训工作的六重六轻浅析

本文从六个方面对安全培训工作存在的问题进行了分析，并提出了搞好安全~-i）rI工作的对策．

期刊