在线更新的信息强度引导启发式Q学习

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:jianlzho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习收敛速度慢的问题,提出可在线更新的信息强度引导的启发式Q学习算法以加快强化学习算法的收敛速度。该算法在启发式强化学习算法的基础上引入依据每次训练回报情况进行在线更新的信息强度,通过结合强弱程度不同的动作信息强度更新的启发函数和状态—动作值函数来确定策略,从而提高算法收敛速度。给出该算法并对其收敛性进行证明,同时针对不同参数设置和仿真环境进行路径规划的仿真对比实验,得到实验结果:信息强度引导的启发式Q学习算法在成功率、达到目标位置所需步数及所获回报上均优于Q学习和基本启发式Q学习算法。实验结果表
其他文献
《中华人民共和国立法法》的出台使我国立法上了一个新的台阶,然而,该法并没有对立法技术问题作出专门规定,这便导致我国一系列行政法文件在立法技术上存在缺陷,进而不同程度
目的:探讨社康家庭护理干预在产后抑郁症产妇中的应用效果。方法:选择我院2016年1~7月100例产后抑郁症产妇为研究对象,随机将其等分为对照组与观察组,对照组采取常规护理干预,
利用自行搭建的系统进行了废旧印刷电路板的细碎实验,分析了不同冷却温度、破碎时间、破碎机转速、刀具间隙、排料尺寸对废旧电路板物料粒度分布与产率的影响,并采用正交实验
黄侃先生对汉魏六朝词语的研究苏瑞黄先生弟子,已放训诂学家陆宗达先生曾经回忆道:“有一次,一位叫戴明扬的同学注释《秘康集》.其中有‘交赊相倾’一语,历来无人讲清。戴请教多人
期刊
马尾松历来被认为是扦插极难生根树种,是良种繁育的主要障碍之一,为探索马尾松扦插育苗技术,1989~1991年进行了马尾松扦插育苗、提高繁殖系数以及扦插苗造林试验。结果表明:通
本文通过对语料的定量统计和定性分析,对关联副词"倒"的发展脉络作了概况描写,并从语法化和认知的角度对"倒"可以表示转折和延缓语气的原因作了探讨。认为"倒"发生变化的原因
暖通工程全过程监理质量控制的意义重大,是暖通工程项目建设过程中不可或缺的一部分,能够在很大程度上提升整个工程的质量和安全。本文中,笔者从施工准备阶段、施工开始阶段
针对自主研发的可自动换片的显微图像分析仪(Auto-Slide ICM),研制了切实可行的自动聚焦系统。详细描述了细胞图像聚焦评价函数、空场判别函数和支持自动换片的聚焦搜索策略
<正>"原则性强",是毛泽东对罗荣桓的高度评价。回顾罗荣桓的一生,他无愧于这个评价。当好党代表:坚持"不体罚"的原则红军建立之初,军内一直存在种种非无产阶级思想。军官在处
本文提出一种基于小波变换的多分辨率分析方法来实现数字图像自动聚焦的新算法.本算法通过对小波变换后清晰图像和模糊图像的高频系数的能量值进行计算比较,从而可以判断图像