基于Metropolis准则的多步Q学习算法与性能仿真

来源 :系统仿真学报 | 被引量 : 14次 | 上传用户:tlling06990702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是目前智能体和机器学习研究的热点。针对强化学习中标准Q学习算法更新速度慢的缺点,通过引入多步信息更新策略和模拟退火中的Metropolis准则,提出了一种新颖的多步Q学习算法,称为SAMQ算法。仿真实验表明,与现有的算法相比,该算法能够有效提高收敛速度,较好地解决智能体选择动作时面临的新知识探索还是当前策略遵循的关键问题。
其他文献
新会计准则的出台增加了会计准则学习的难度,高校会计教学面临教师自身素质的提高、教材的选择等一系列的问题。本文就高校会计学教学如何应对会计准则的变化提出了一些自己
方位向降采样滤波器作为机载合成孔径雷达(SyntheticApertureRADAR,SAR)实时成像系统中关键组成部分之一,其性能将直接关系到图像质量的优劣。由于受到运算代价、存储开销的限制,方位向降采样滤波器的阶数不能很高。如何在滤波器阶数受限的情况下,设计出满足实时处理要求的性能优异的滤波器是一个值得研究的问题。针对机载SAR实时成像系统应用,提出了一种新的方位向降采样滤波器设计方法,引入增
1病例患者女,39岁,因“车祸伤及胸部1小时”人院。行胸部CT检查示右肺下叶不张,又行支气管镜检查示右肺下叶支气管开口处,见一圆形肿物,光滑,充血,取病理示炎性息肉可能性大。决定性
本文从六个方面对安全培训工作存在的问题进行了分析,并提出了搞好安全~-i)rI工作的对策.
目的:通过搞好血液安全体系的建设,将血液管理工作水平得到提高.几年来我们血站依据一法两规的文件精神的要求,致力于建立完善的”血液管理体系”,建立了质量手册、程序文件、标准
目的:了解儿保门诊儿童心理卫生问题的现状,提高儿保工作者对儿童心理问题的了解和关注、促进儿童心理健康发展。方法:对我院门诊开设以来的228名儿童就诊原因进行分析,采用检验
目的:为贯彻落实卫生行业标准《医院感染监测规范))(WS/T312~2009),了解医院感染的发生情况与影响因素,制定医院内感染控制切实可行的有效措施,提高医务人员的医院感染控制意识。方法:采
本文对大面积现浇钢筋混凝土屋面开裂渗水作了些探讨,并分析了其产生的原因,提出了一些防治措施与建议。
本文通过对我院2009—09~2010—09收治的多囊卵巢综合征fPCOS)经综合治疗后妊娠的孕妇42例进行分析,比较常规使用地屈孕酮对妊娠结局的影响。 1 对象和方法 1.1 对象选择2009—09