面向强化学习的内在奖励研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:cqt19900112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统强化学习只使用外在奖励作为信号指引智能体进行决策,使得未来累积奖励值达到最大值。外在奖励稀疏问题是强化学习的一个难点。在奖励稀疏环境中,智能体只有到达终点才能获取奖励,中间缺失的信号会导致智能体学习速度缓慢、花费成本高和策略网络欠拟合等问题。为了解决奖励稀疏问题,本文研究强化学习智能体的内在奖励方法。针对现有的内在奖励方法存在智能体探索效率低、内在奖励消失等问题,完成了以下研究工作:(1)内在奖励的作用主要是促进智能体去不断地探索环境,但探索过程中会面临不安全的动作,目前设计的内在奖励并未考虑环境中动作的风险程度。因此,本文从新颖性和风险评估这两方面设计一个内在奖励,使智能体能充分地探索环境并考虑环境中存在的不确定性动作。该方法首先将新颖性描述为对当前状态-动作和转换后状态的访问次数,将具体执行的动作考虑进去;其次采用累积奖励方差评估当前动作对状态的风险程度。该方法在离散型控制任务和连续性控制任务中进行了测试,实验结果验证该方法取得了更高的平均奖励值,尤其是在外在奖励延迟的情况下,也获得了更高的平均奖励值,表明该方法能有效地解决外在奖励稀疏的问题。(2)现有的内在奖励随着智能体不断探索环境而逐渐消失,导致智能体无法利用内在奖励信号去学习最优策略。为了解决这个问题,提出了一种基于内在奖励的技能的获取和组合的方法。该方法首先在智能体与环境交互过程中寻找积极状态,在积极状态中筛选子目标;其次从初始状态到达子目标,子目标到达终止状态所产生的一条轨迹中发现技能,对技能中出现一个或者两个以上的子目标进行组合;最后用初始状态到子目标的距离和初始状态到子目标的累积奖励值对技能进行评估。该方法在连续性控制任务中取得了较高的平均奖励值,表明该方法提出的子目标和技能可以有效地解决内在奖励消失后,智能体无法利用内在奖励信号学习最优策略的问题。
其他文献
随着数字技术的渗透和虚拟社区的发展,用户在商业模式中的角色发生转变,逐渐由被动的价值接受者转变为积极的价值创造者。用户参与企业的价值创造成为了商业价值创造的新模式,这一特征尤其体现在网络问答社区的价值创造上。在网络问答社区中,用户可以利用碎片化时间随时随地发生的知识信息行为,即知识的搜寻、贡献和采纳行为是用户在网络问答社区进行价值创造的主要方式。网络问答社区作为价值共创的典型平台,已吸引较多学者的
学位
网络化控制系统(NCS)是通过实时网络将被控对象、传感器和执行器连接起来的闭环系统.由于环境噪声和人为干扰的存在,随机扰动已成为实际系统中的常见现象.本文考虑具有随机扰动的一类网络化随机系统.此外,随机系统中可能发生的时间延迟会降低所处理系统的性能,甚至会破坏系统的稳定性.而网络负载、设备不佳等因素,使得网络控制系统内的通信受限问题受到广泛关注.因此,通信受限下的随机系统的稳定性和耗散性能控制研究
学位
多孔介质方程早在六十年代就开始被深入研究了,而对于分数次多孔介质方程的研究直到最近几十年才慢慢成为大家关注的热点问题.在本文中,选取的两类分数次多孔介质方程进行研究,更好的了解在不同的方程中分数次算子所起到的作用.利用调和分析的方法,研究它们的适定性、Gevrey正则性和时间衰减.在第一章中,主要介绍了课题的研究背景,重点回顾了分数次多孔介质方程和不可压流多孔介质方程的国内外研究现状,通过对比分析
学位
移动新闻客户端蓬勃发展的同时也面临人口红利的逐渐消失,用户对于行业的整体满意度亦有待提高,移动新闻客户端行业如何长久保持发展活力值得深思。而用户的持续使用行为是移动新闻客户端行业发展的动力之一,通过探究移动新闻客户端用户持续使用行为的影响机制来进行问题突破。研究关注重点在于,一是用户持续使用移动新闻客户端的影响因素有哪些?二是这些影响因素如何作用于用户?三是不同影响因素之间的关系是怎么样的?四是如
学位
<正>卒中是致残和致死的主要疾病之一,急性缺血性卒中约占全部卒中的80%。急性缺血性卒中治疗的关键在于尽早开通阻塞血管,挽救缺血半暗带。目前被证实有效的急性缺血性卒中早期血管再通的治疗方法主要是静脉rt-PA溶栓[1-3]。对静脉溶栓随机对照试验(random control trial,RCT)的荟萃分析证实发病4.5 h内静脉rt-PA溶栓有明确获益,而且溶栓时间越早,获益越大[4]。
期刊
随着国家司法智能体系建设的推进,司法审判预测已成为司法领域智能化研究的热点问题。刑期预测作为智慧司法重要的一部分,对促进国家智慧法院的建设具有重要的研究意义和应用价值。盗窃案件的量刑过程具有很强的逻辑性,案件量刑结果和案情要素具有直接关系。当前研究没有关注到相应逻辑知识,仅以学习的方式预测刑期,效果较差且不具有可解释性。针对以上问题,本文融合真实审判流程逻辑,提高刑期预测的可解释性;根据相关法条分
学位
检测公共场所人群活动中的突发聚集和行人逆行行为是构建未来智能视频监控系统的关键技术,也是计算机视觉的重要研究问题之一。设计恰当的计算模型、探究合适的算法实现高效、准确地自动检测人群活动中突发的上述异常事件对人工智能的发展具有重要的促进作用。然而,由于人群活动随机性强、行为特征不明显,现有的传统计算机视觉技术虽能识别人群目标的少许运动特征,但对人群活动的行为识别难、环境适应性弱。近年来,基于生物视觉
学位
十二五规划首次提出要推动文化产业成为国民经济的支柱性产业,传媒产业作为文化产业重要组成部分,受到资本热捧发展迅速。然而,作为传媒行业龙头的传媒上市公司的经营状况在2017年后开始迅速下滑。本文认为可以通过优化传媒上市公司薪酬激励体系的方式,提高传媒上市公司经营绩效,使传媒上市公司走出困境。本文旨在探究造成传媒上市公司激励不足的根本原因、传媒上市公司薪酬激励与企业绩效关系以及传媒上市公司如何调整薪酬
学位
数据流转是打通数据壁垒的有效手段,但数据流转的同时也面临多用户身份难以认证的问题。聚合签名因具备签名压缩及批量验证等特性,在面向多参与方的认证场景中具有较高的实用价值。但多数已有聚合签名方案存在两个问题,一是在构造时使用计算成本较高的双线性配对,且在面临密钥泄露时没有很好的解决措施,使得方案实用性不高;二是对于不同来源的数据,通常由数据属主分别签名后直接聚合所有签名,很少采用顺序聚合的方式,导致方
学位
自党的十九届四中全会提出“拓展公益诉讼案件范围”以来,行政公益诉讼案件类型在原有的四大类基础上不断增加。2021年底《中华人民共和国妇女权益保障法(修订草案)》提交人大审议,由检察机关就妇女权益损害事项可以通过公益诉讼途径进行救济是本次修法的重点内容之一。但目前学界对妇女权益公益诉讼中具体问题的讨论尚不充分,对理论基础、受案范围、诉讼主体、诉讼程序等基本事项进行初步明确是保障机制落地的必要前提。妇
学位