平均奖赏强化学习研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yuzhou519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种以环境反馈作为输入的,特殊的、适应环境的机器学习方法.agent在与环境交互中通过“试—错”的方式对不同状态下各动作的期望反馈进行学习,以最优化长期收益。按照长期收益定义方式,强化学习分为有限无折扣强化学习、无限有折扣强化学习与平均奖赏强化学习三类。有限无折扣强化学习最大化agent在有限步内所获得的奖赏值和.无限有折扣强化学习则对agent在某状态能获得的期望反馈引入折扣因子γ,agent近期获得的奖赏将被赋以较大的权值,长期获得的奖赏值则被赋以较小的权值。不同于以上两类强化学习,平均奖赏强化学习最大化agent的长期平均收益。 本文研究该模型下的强化学习算法。R—学习是经典的平均奖赏强化学习算法。在学习过程中,该算法更新状态动作对的值函数。由于值函数通常表示成相对于系统平均奖赏值的相对值形式,并且学习前平均奖赏值未知,因此当agent选择贪心动作时,算法更新平均奖赏值。平均奖赏值与各状态相关,当agent访问任一状态时,平均奖赏值将有很大可能需要进行更新。因而不同时期所获得的值函数之间,其值大小存在“模糊”,导致算法不稳定。若采用学习方式更新平均奖赏,则又将使算法对参数的依赖性增强。 曹希仁等人在研究马尔可夫过程问题下的扰动分析时提出性能势这一概念.研究表明:状态的性能势可被用于衡量该状态对系统平均性能的贡献,而任一状态的性能势值都可被用作参考值以计算其它状态的性能势.其后,他们又将性能势推广到马尔可夫决策过程以及半马尔可夫决策过程问题中,指出选择不同的状态作为计算性能势的参考状态并不影响最优策略的确定。 性能势可以选择任一状态作为参考状态并且不影响最优策略的选择,所以本文可以基于性能势定义各值函数。在agent访问参考状态时更新其性能势值,那么在其相邻两次更新的间隔内,各值函数大小不存在“模糊”,从而提高算法稳定性。传统的基于性能势的算法都采用采样路径的策略迭代方式,其效率不高.因此本文又结合强化学习中的异步值迭代方式,进而提出G—学习算法。本文将G—学习算法分别应用在马尔可夫决策过程问题与半马尔可夫决策过程问题中,并与相应的传统算法相比较。实验证明,相较于其它学习算法,G—学习算法学习速度更快,学习效果更好。
其他文献
在软件工程中,要解决“软件危机”,就要解决其核心问题:需求问题,特别是需求获取和需求建模问题。需求获取、表达以及建模方法的研究是当前需求工程中的研究热点。目前,虽然已经存
学位
随着计算机网络在政治、经济、军事等领域的日益普及和广泛应用,越来越多的基于网络实现的信息服务系统,如电子商务、电子政务等迅速开展,逐渐形成以个人、企业与政府为主体的全
自60年代出现软件危机以来,世界各国政府、计算机软件研究机构和组织在软件工程化方法、技术和工具的研究、开发和实践方面投入了大量的人力、物力和资金。人们认识到,要高效率
学位
本文以本单位研发的有源电力滤波器(APF)的RS232通信线缆进行电快速脉冲群试验的时候,遇到RS232通信的接口芯片损坏的情况为切入点,进行电快速脉冲群对RS232通信影响和防护的研
伴随着Internet的爆炸性增长,互联网越来越多地呈现出一些新的特征,主要体现在网络流量的指数型增长、业务种类的多样化以及网络架构的日益复杂化等方面。在日益庞大和复杂的网
学位
以数字为媒介进行的数据传输,在当今极其重要,但在数字媒体数据传输过程中,可能会发生与所发送数据的安全相关的问题。水印技术被引入作为多媒体内容的知识产权(IPR)保护工具。
伴随网络技术的普及和发展,网络安全问题日益严重。网络攻击事件频频发生,不仅造成巨大的经济损失,并且严重阻碍了网络技术的应用和发展,亟需建立有效的安全防护措施。 为了保
多元化协同作战使武器协同成为必需。对于导弹攻击,单枚导弹已经无法充分发挥其作战效能,多导弹间的协同作战变得越来越重要。多枚导弹组成的编队,通过采用有效的协同策略,可极大
信息技术已经成为现代组织赖以生存和发展的基石,现代组织机构(如企业、政府机关、教育等)都越来越依赖于IT支撑下的各种应用系统,与此同时,他们也对应用系统建设的敏捷性、灵活
空间辐射作为航天器故障的主要来源,一直以来备受人们的关注,星载计算机的容错技术也成为航天器设计的关键技术之一。随着半导体制造工艺的发展,电子器件的物理尺寸不断减小,以往