Q学习算法中网格离散化方法的收敛性分析

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:dahubi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Q学习算法是Watkins[1]提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题,则需要先离散化问题的状态和决策空间.在本文中,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下,随着网格密度的增加,空间离散化后Q学习算法求得的最优解依概率1收敛于原连续问题的最优解.
其他文献
Magnolia obovata, a tree species native to Japan, is a traditional landscaping tree that has also been introduced to various countries. M. obovata individuals h
天津市是我国近代重要的化工基地,辖区内化工企业众多,布局分散,政府安全监管难度较大.隐藏在居民区的危化品经营网点一度遍布市区各个角落,违规储存带来的安全隐患严重威胁
3D打印是快速成型技术的一种,它是一种以数字模型文件为基础,运用粉末状金属或塑料等可粘合材料,通过逐层打印的方式来构造物体的技术.3D打印技术以其加工精准性广泛用于工艺
在当今社会,一方面,无论国家、政府、企业还是个人,都在享受网络带来的便利和实惠;另一方面,人们又越来越担心来自网络犯罪及网络恐怖的威胁。虽然一些人认为,现在讨论网络恐怖主
深入研究3D打印技术在航空制造业中应用推广所面临的问题,对航空制造业快速生产出更好的产品和提高航空飞行器内外饰设计、制造形成更合理的流程与方法都有重要的意义。尤其
“点影雕”是笔者根据多年治玉经验,博采古玉、烙画、汉画、影雕、油画、国画、版画、微雕、素描等多门艺术之长,而付诸实践的玉作品。2015年第十一届“玉华奖”活动举办期间
1912-1914年,中国出现了四部宪法文件,其中两部采取总统制,两部采取内阁制,这反映了总统制与内阁制之争的激烈程度。民初宪政初兴,宪政制度构建缺少政治文化传统和民众心理的支持
自主建构,是建立在自我发展基础上的学习,是学习主体根据自己已有的知识经验主动建构新知识的过程.学生必须在已有的知识、经验和技能基础上,通过教育者的引导,主动参与学习
我国是以煤炭为主要能源的国家,由于防护技术和监管力度以及煤矿地质特有因素等原因,煤矿开采中生产安全事故频发,造成大量人员伤亡。经过对矿难现场和伤亡人员的大量数据分
参政权是公民的一项基本权利,在公民的基本权利体系中具有重要的地位,是需要宪法和法律给予重点保障的基本人权之一。占人口半数的妇女,只有实现平等的享有和实现参政权,才能