效用驱动的Markov强化学习

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:hengkuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。
其他文献
初步实现国民经济和社会发展的信息化.构建起数字北京的基本框架。信息化总体水平继续保持全国的领先地位,进入国际一流的信息化城市行列。
指定验证者签名可以实现签名者选择所期望的验证者验证签名的有效性,从而达到控制数字签名任意传播的目的,基于双线性对构造了一个新的基于身份的多签名者强指定验证者签名方
【正】 5月6日,南非总统曼德拉访华期间,由我所和北京大学非洲研究中心以及南非中国贸易投资协会共同主办的"中国——南非友好日"活动在北京大学举行。友好日活动期间,除主办
同时多线程(SMT)是一种允许多个独立的线程每周期发射多条指令的技术,这种技术充分利用了可能存在的指令级并行和线程级并行,提高了有限资源的利用率。文章以西北工业大学航空微
【正】 1998年,亚洲流年不利,东亚更是多事之秋。东亚一些国家在金融危机中越陷越深,个别国家引发政治动乱。东亚的安全痼疾与某些国家的内部问题,具有相当强的扩散性和破坏
美国《现代轮胎经销商》(www.moderntiredealer.com)2018年7月5日报道:韩泰轮胎有限公司收购了德国独立轮胎批发商和零售商Reifen-Mueller KG。此项收购也包含了该公司的轮胎
【正】 日本丰田汽车株式会社董事长丰田章一郎凭借其强烈的进取精神,不断创新与迎接挑战,使"丰田"在1990年生产的汽车数超过美国通用汽车公司,成为世界第一大汽车制造公司。
政府业务流程的改造是电子政务建设的必然要求,政府信息系统建设和应用的过程是政府业务流程不断规范化和优化的过程,也是政府管理机构和职能不断调整的过程。
粗糙集理论的主要思想是在保持分类能力不变的前提下,通过属性约简和值约简,提取决策规则。设计了一个基于粗糙集的客P分类模型,并利用粗糙集的知识约简和决策规则提取算法对超
未来市场洞察(Future Market Insights)2018年7月2018发布了全球翻新轮胎市场报告,对全球翻新轮胎市场前景保持乐观,预计未来10年,这一市场市值将以4.6%的复合年增长率增长。