策略梯度强化学习中的最优回报基线

来源 :计算机学报 | 被引量 : 0次 | 上传用户:memory_prince
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛.
其他文献
关于高时空的分辨率气象数据的应用,现代天气的预报系统提出了更高的要求,传统的预报分析系统MICAPS3,已经满足不了实时预报相关的大数据的数据应用。应用模式预报和集合预报
被告人赔偿作为一种酌定量刑情节在司法实践中适用范围非常广泛、对量刑影响极其显著,得到了刑事诉讼参与各方的普遍追求和认同。故意伤害案作为一种典型的人身侵害类案件,被告人赔偿在此类案件的刑事诉讼中更是得到了高频率的适用和采纳,其对被告人的刑事责任产生了很大的影响。被告人赔偿从宽处罚是司法机关审理故意伤害案时的通常做法。司法机关适用被告人赔偿调节量刑具有充分的法律依据、理论依据及政策依据,因此,适用被告
半导体光催化技术不仅可以将太阳能转化为化学能,还可以直接降解和矿化有机污染物,因此其在抑制环境污染和解决能源短缺方面具有广阔的应用前景。类石墨相氮化碳(g-C3N4)具有独
职业教育的特点在于其鲜明的职业属性,职业教育的专业不是学科专业,它总是与从事某种职业的人的职业活动联系在一起的,它是对相关职业领域里的职业群或岗位群的从业资格进行
三峡水库运行期间,库水位一年一度在145m至175m之间蓄水和消落,水库蓄水和水位的周期性升降必然引起沿江两岸消落区及生态屏障区范围内库岸边坡稳定性劣化,造成库岸边坡的失稳破
文章就为什么要用图像表征解决问题,教学中利用图像表征帮助学生解决问题的实施策略进行了阐述;详细分析了图像表征对学生思维发展的作用;指出在教学中应重视学生画图意识的
综述了Nisin等生物保鲜剂的防腐机制及其在肉类工业、奶制品加工业、果蔬加工和粮食加工等领域的广泛应用,并对其应用前景进行展望,以期为生物保鲜剂的进一步研究提供参考。
文章以化学实验教学研究为切入点,从三个方面提出培养高中生化学素养的策略。
在漫长的人生道路上,人们要经受无数次风风雨雨,要承受无数次生活的考验,要经历无数次的人生选择……人生的轨迹,其实不过是诸多选择的集合。追溯往事,对一个又一个人生选择
布鲁姆过滤器是一种能够简洁地表示集合并支持集合查询的数据结构,广泛应用于数据库、网络和分布式系统中.针对现有的布鲁姆过滤器没有考虑查询失效代价这一缺陷,文中提出一