基于MetrOPOlis准则的Q-学习算法研究

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:taobaowang1312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
探索与扩张是Q-学习算法中动作选取的索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降.
其他文献
基于自相似分形集抗几何失真的特性 ,提出了一种首先将数字水印信息转化为生成自相似分形集的IFS系数 ,然后将由该IFS生成的自相似分形图嵌入到图像中去的数字水印算法 .实验
针对电力系统具有非线性负荷的情况下 ,在经典的非线性系统几何结构理论的发展基础上 ,结合非线性系统微分几何理论 ,提出了关于微分代数系统的 M导数、M括号等一些新的概念
介绍了大口径机枪双头弹空气阻力系数的 2种实验方法和实验结果。采用模型风洞测试和实弹射击的方法获得了大口径机枪双头弹弹头飞行的空气阻力系数 ,对 2种方法所得的阻力系
本研究测量了河南省三个牛场503头奶牛的乳头长度,对乳头长度的影响因素进行分析,并且对测定日产奶量、体细胞数与乳头长度的关系进行研究.结果显示奶牛乳头长度主要分布在4~6
针对典型大时变时滞系统 ,设计新的鲁棒fuzzy_PID控制器 ,实现系统参数大范围失配情况下的闭环鲁棒稳定 ,并且使闭环系统达到设定值无静差跟踪及满意的动态性能 .现场应用效
为探讨影响吐鲁番斗鸡攻击行为相关基因的分子标记,以单胺氧化酶A(monoamine oxidase A,MA OA)为候选基因,采用PCR-SSCP方法对吐鲁番斗鸡60只、新罗曼鸡及其杂交(吐鲁番斗鸡
基于双轴涡扇发动机热力学模型,采用高低压涡轮间补燃的方法,实现了对发动机性能的改善.研究分析了高低压涡轮间补燃对发动机高度特性、速度特性以及转速特性的影响.计算结果
试验选用48头泌乳期荷斯坦奶牛按单因素随机设计原理分成4组,每组12头.对照组全混合日粮(TMR)不添加苜蓿,试验Ⅰ、Ⅱ、Ⅲ组分别添加10%、20%和30%左右优质苜蓿干草替代部分精料,
本文针对膜结构裁剪分析中的关键问题──膜片预张力释放问题,根据弹性动力学原理,建立了膜片预张力释放计算模型。文中描述并求解了一个在预张力状态下的膜结构随预张力释放
解决了机动再入飞行器在气动系数变化范围大和气动耦合严重等恶劣条件下的姿态和过载控制问题 .为了能充分利用飞行器可测量信息提高系统自适应能力 ,提出了滚动通道状态方程