Q学习算法中网格离散化方法的收敛性分析

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：dahubi

【摘要】

：

Q学习算法是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和

【作者】

：

蒋国飞高慧琪吴沧浦

【机构】

：

北京理工大学自动控制系,北京,100081

【出处】

：

控制理论与应用

【发表日期】

：

1999年2期

【关键词】

：

Q学习动态规划马尔可夫决策问题连续状态和决策空间离散化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Q学习算法是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间.在本文中,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Q学习算法求得的最优解依概率1收敛于原连续问题的最优解.

其他文献

Naturalization of Landscaping Woody Plant, Magnolia obovata Potentially Invasive Species

Magnolia obovata, a tree species native to Japan, is a traditional landscaping tree that has also been introduced to various countries. M. obovata individuals h

期刊

Magnoliaquotientforestsplantingmaturityspreadestablishingpossibilitybird

“天津模式”搭建危化品安全经营平台

天津市是我国近代重要的化工基地,辖区内化工企业众多,布局分散,政府安全监管难度较大.隐藏在居民区的危化品经营网点一度遍布市区各个角落,违规储存带来的安全隐患严重威胁

期刊

天津市模式危化品公共安全危险化学品市场统一化工企业经营网点政府交易市场化工基地风险隐患分散经营安全职责安全隐患安全监管企业集居

3D打印技术应用于工业实验的新探究

3D打印是快速成型技术的一种,它是一种以数字模型文件为基础,运用粉末状金属或塑料等可粘合材料,通过逐层打印的方式来构造物体的技术.3D打印技术以其加工精准性广泛用于工艺

期刊

3D打印工业试验打印强度

网络恐怖主义及其威胁

在当今社会，一方面，无论国家、政府、企业还是个人，都在享受网络带来的便利和实惠;另一方面，人们又越来越担心来自网络犯罪及网络恐怖的威胁。虽然一些人认为，现在讨论网络恐怖主

学位

网络恐怖主义信息技术国家安全风险管理

3D打印技术在航空制造业的应用与研究

深入研究3D打印技术在航空制造业中应用推广所面临的问题,对航空制造业快速生产出更好的产品和提高航空飞行器内外饰设计、制造形成更合理的流程与方法都有重要的意义。尤其

期刊

航空制造业3D打印设计

玉雕界新宠——“点影雕”

“点影雕”是笔者根据多年治玉经验,博采古玉、烙画、汉画、影雕、油画、国画、版画、微雕、素描等多门艺术之长,而付诸实践的玉作品。2015年第十一届“玉华奖”活动举办期间

期刊

古玉独山玉烙画汉画线雕文化研究会良渚文化玉华点线平面化

民初总统制与内阁制之争的政治学分析

1912-1914年，中国出现了四部宪法文件，其中两部采取总统制，两部采取内阁制，这反映了总统制与内阁制之争的激烈程度。民初宪政初兴，宪政制度构建缺少政治文化传统和民众心理的支持

学位

政治史总统制内阁制民国初期

浅谈在小学数学教学中,如何实现学生的自主建构

自主建构,是建立在自我发展基础上的学习,是学习主体根据自己已有的知识经验主动建构新知识的过程.学生必须在已有的知识、经验和技能基础上,通过教育者的引导,主动参与学习

期刊

小学数学学生自主建构

不同煤矿自救器的正确选择

我国是以煤炭为主要能源的国家,由于防护技术和监管力度以及煤矿地质特有因素等原因,煤矿开采中生产安全事故频发,造成大量人员伤亡。经过对矿难现场和伤亡人员的大量数据分

期刊

煤矿开采隔绝式压缩氧自救器隔绝式化学氧自救器一氧化碳气体生产安全事故作业人员过滤式自救器安全防护装置工作现场瓦斯爆炸死亡人数数据分析人员

我国妇女平等参政权法律保障制度的完善

参政权是公民的一项基本权利,在公民的基本权利体系中具有重要的地位,是需要宪法和法律给予重点保障的基本人权之一。占人口半数的妇女,只有实现平等的享有和实现参政权,才能

学位

妇女平等参政权法律保障

Q学习算法中网格离散化方法的收敛性分析

与本文相关的学术论文