基于强化学习的值迭代算法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：jij0tl81f

【摘要】

：

强化学习（Reinforcement Learning）是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化：值迭代、策略迭代、策略搜索。该

【作者】

：

崔军晓朱蒙婷王海燕章鹏王辉

【机构】

：

苏州大学计算机科学与技术学院

【出处】

：

电脑知识与技术

【发表日期】

：

2014年11期

【关键词】

：

强化学习值迭代格子世界 reinforcement learningvalue IterationGridworld

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习（Reinforcement Learning）是学习环境状态到动作的一种映射,并且能够获得最大的奖赏信号。强化学习中有三种方法可以实现回报的最大化：值迭代、策略迭代、策略搜索。该文介绍了强化学习的原理、算法,并对有环境模型和无环境模型的离散空间值迭代算法进行研究,并且把该算法用于固定起点和随机起点的格子世界问题。实验结果表明,相比策略迭代算法,该算法收敛速度快,实验精度好。

其他文献

氧气驱动雾化吸入普米克令舒佐治急性感染性喉炎30例疗效观察

目的观察普米克令舒佐治急性感染性喉炎的疗效。方法治疗组在综合治疗基础上予氧气驱动吸入普米克令舒,对照组予氧气雾化吸入地塞米松,观察、记录2组患儿症状、体征改善情况

期刊

急性感染性喉炎普米克令舒氧气驱动雾化吸入

制种田玉米矮花叶病毒病的发生与防治

期刊

玉米矮花叶病毒病发生与防治制种田

检查机构认可风险管理决策支持系统的研究

该文介绍CNAS认可风险管理的决策支持系统。此系统基于网络平台，通过引入检查机构、检查人员、测评模型和知识库对评估过程利用层次分析法的模型进行风险评估，根据评估结果发现

期刊

AHP检查机构认可CNAS风险管理决策支持系统AHP The Inspection Body Accreditation Rish Managemen

走近奇瑞

期刊

安徽芜湖奇瑞汽车公司产品开发成本控制上海汽车工业公司企业重组投资控制物资采购

让“勤劳”美德根植人心

民生在勤,勤则不匮。在全社会重视劳动教育、弘扬勤劳美德的时代背景下,思想政治课理应发挥立德树人“主阵地”的作用,结合高中生心智发展实际,创设有利时机和独特情景,厚植

期刊

立德树人启智心智发展思想政治课勤则不匮高中生成长进步美德

吡柔比星膀胱内灌注预防膀胱癌术后复发54例分析

目的探讨吡柔比星(THP)膀胱灌注化疗预防浅表性膀胱癌术后复发的预期疗效和安全性。方法对54例浅表性膀胱癌术后患者应用THP(40mg)膀胱灌注,每周1次,共8次;以后每月1次,共8次

期刊

膀胱癌吡柔比星(THP)膀胱灌注

基于Helix的网络视频直播系统的设计与实现

随着计算机网络和多媒体技术的迅猛发展,流媒体技术得到了广泛应用。网络多媒体相关产品日益丰富,如视频点播、远程教育、电视会商等,已经逐步实现了试验阶段向应用阶段的过

期刊

Helix网络视频直播系统流媒体

“只堵不疏”不能解决高考移民问题

贵州高考移民案背后，显示城市化进程未能解决农民工二代进城的机会均衡问题，当越来越多的人试图通过较低的经济成本，借由国家政策的漏洞，进而取得城市户籍、教育等权利时，采取法律手段并不能解决根本问题　　　　韩志伟从武汉大学的高才生一落而为阶下囚，固然有其咎由自取的原因，但其被扭曲的人生之路再次暴露出了户籍制度的僵化带来的公平问题。　　　　“只堵不疏” 不能解决高考移民问题　　最近10多年来，高考移民在我

期刊

高考移民移民问题城市化进程户籍制度经济成本国家政策武汉大学法律手段

同煤集团2005年-2007年度法定传染病漏报调查分析

目的分析同煤集团法定传染病漏报现状，以提高疫情报告率和报告质量。方法对辖区内各级各类医疗机构所使用的门诊日志、出入院登记、化验室登记、传染病登记册所登记的传染病病

期刊

传染病漏报分析

画里画外

期刊

基于强化学习的值迭代算法

与本文相关的学术论文