效用驱动的Markov强化学习

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：hengkuan

【摘要】

：

对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联

【作者】

：

韩伟

【机构】

：

南京财经大学信息工程学院

【出处】

：

计算机工程与应用

【发表日期】

：

2009年4期

【关键词】

：

强化学习智能体 MARKOV决策过程 reinforcement learning intelligent agent Markov decision pro

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的。智能体的学习将不再与特定的目标状态相联系,而是最大化每步的平均期望收益,即最大化一定步数内的收益总和,因此学习结果是一个平均收益最大的最优循环。证明了多吸收状态下强化学习的收敛性,将栅格图像看作具有多个吸收状态的格子世界,测试了确定性环境下多吸收状态Q学习的有效性。

其他文献

区域电子政务趋势：借奥运实现局部信息目标用数字提升全面经济发展——北京市电子政务”十五”规划纲要节选

初步实现国民经济和社会发展的信息化．构建起数字北京的基本框架。信息化总体水平继续保持全国的领先地位，进入国际一流的信息化城市行列。

期刊

电子政务北京城市网络化信息化社会公共领域

多个签名者强指定验证者签名方案

指定验证者签名可以实现签名者选择所期望的验证者验证签名的有效性,从而达到控制数字签名任意传播的目的,基于双线性对构造了一个新的基于身份的多签名者强指定验证者签名方

期刊

基于身份多签名者双线性对ID-based multi-singers bilinear pairings

“中国南非友好日”活动简况

【正】 5月6日,南非总统曼德拉访华期间,由我所和北京大学非洲研究中心以及南非中国贸易投资协会共同主办的"中国——南非友好日"活动在北京大学举行。友好日活动期间,除主办

期刊

南非曼德拉北京大学主办单位研究中心中国现代投资协会国际关系研究国际文化中国国际贸易促进会

超标量处理器中引入SMT技术的性能分析研究

同时多线程（SMT）是一种允许多个独立的线程每周期发射多条指令的技术，这种技术充分利用了可能存在的指令级并行和线程级并行，提高了有限资源的利用率。文章以西北工业大学航空微

期刊

超标量处理器同时多线程每周期完成的指令数(IPC)superscalar processorsimultaneous multithreadingin

世纪之交的变局—东亚安全形势综述

【正】 1998年,亚洲流年不利,东亚更是多事之秋。东亚一些国家在金融危机中越陷越深,个别国家引发政治动乱。东亚的安全痼疾与某些国家的内部问题,具有相当强的扩散性和破坏

期刊

金融危机安全形势东亚地区大国关系伙伴关系中美关系方向调整克林顿发展战略东南亚

韩泰在德国收购轮胎经销商

美国《现代轮胎经销商》(www.moderntiredealer.com)2018年7月5日报道:韩泰轮胎有限公司收购了德国独立轮胎批发商和零售商Reifen-Mueller KG。此项收购也包含了该公司的轮胎

期刊

轮胎经销商轮胎市场

日本“财界总理”——丰田章一郎

【正】日本丰田汽车株式会社董事长丰田章一郎凭借其强烈的进取精神,不断创新与迎接挑战,使"丰田"在1990年生产的汽车数超过美国通用汽车公司,成为世界第一大汽车制造公司。

期刊

丰田汽车公司汽车工业不断创新通用汽车公司丰田轿车财界日本经济团体联合会迎接挑战进取精神株式会社

政务环境——政务流程的规范化和优化

政府业务流程的改造是电子政务建设的必然要求，政府信息系统建设和应用的过程是政府业务流程不断规范化和优化的过程，也是政府管理机构和职能不断调整的过程。

期刊

规范化优化环境电子政务建设信息系统建设业务流程管理机构政府职能

粗糙集在客户分类中的应用研究

粗糙集理论的主要思想是在保持分类能力不变的前提下，通过属性约简和值约简，提取决策规则。设计了一个基于粗糙集的客P分类模型，并利用粗糙集的知识约简和决策规则提取算法对超

期刊

粗糙集属性约简决策表差别矩阵rough set attribute reduction decision-table discernibilit

全球翻新轮胎市场年均增长近5％

未来市场洞察（Future Market Insights）2018年7月2018发布了全球翻新轮胎市场报告，对全球翻新轮胎市场前景保持乐观，预计未来10年，这一市场市值将以4．6％的复合年增长率增长。

期刊

轮胎市场翻新轮胎市场报告市场前景年增长率

效用驱动的Markov强化学习

与本文相关的学术论文