强化学习中三个关键问题的研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lijing1671
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习算法是一类让智能体在与环境的交互中进行学习的算法,即让智能体学会如何将环境状态映射成自身的动作的方法,并使得环境反馈的回报信号的数值最大化。在引入深度学习后,强化学习算法的应用范围得到拓展且性能得以提升,但同时也带来一些问题。本文的主要工作分为三大部分,分别面向强化学习的三个关键的问题:(1)值函数近似误差对算法造成的负面影响;(2)强化学习算法需要依赖大量的采样;(3)强化学习算法的稳定性较低。第一部分的工作包含第三、四章的内容。第三章通过理论分析演员-评论家结构的强化学习算法的收敛性。分析发现一个重要的结论:该类方法若引入函数近似方法,值函数的近似误差不仅引起过估计现象,而且算法将失去收敛的保障。第四章提出了降低值函数近似误差的有效方法,该章节推导出了演员-评论家结构的算法中Q函数的近似误差的上边界,同时发现:若在训练过程中尽量保证相邻两次迭代的策略拥有较高的相似度,可以降低该误差边界,从而降低实际的误差值。根据该推论,本章提出了一种限制值函数近似误差的强化学习算法——误差控制演员-评论家算法。消融实验证明了上述推论的正确性;对比实验证明了误差控制演员-评论家算法的性能优于其它现有主流的强化学习算法。第二部分的工作(第五章)提出一种利用少量的鲁棒样本引导强化学习训练的方法,从而降低强化学习算法所需的采样量。区别于预训练的方法(只用专家演示样本训练策略的参数初始值),本章节提出的方法在整个强化学习训练的过程中间隔地使用这些样本引导策略的训练。另外,在获取专家演示样本时往动作值注入适当的噪声从而提高样本的鲁棒性。实验结果证明了用样本全程引导强化学习的训练效果明显优于预训练的方法,而且相比之下,注入噪声的样本效率更高。第三部分的工作(第六章)针对的是强化学习算法的稳定性低的问题。强化学习算法不稳定的因素主要有两点:(1)难以稳定获取高质量的样本;(2)算法对超参数较为敏感。借鉴进化计算中群体优化的思想是解决强化学习稳定性的一种可靠思路,根据该思路提出了群体竞争强化学习提升算法的稳定性。由于群体中的每个智能体探索环境的方式存在差异,且它们的样本可以共享,使得该框架在保证了采样效率的同时又保证了样本的质量(多样性)。此外,在强化学习算法运行期间,不同策略用不同超参数进行训练,一定程度降低了超参数的敏感性。群体竞争强化学习的以上两点作用确保了算法的稳定性。对比实验的结果证明了群体竞争强化学习的算法性能优于其它同类算法框架。
其他文献
植物是一种无柄、光自养的生物,因此,它们的整个生命周期都受到外界光照环境的影响。为了感应和应对不断变化的外界环境,高等植物拥有3类针对特定光波长的感光体受体家族来介导各种适应性响应和发育过渡。光作为一种信号可以诱导幼苗形态变化,使幼苗从土壤下生长发展到更适应地上生长的状态,这一过程称为光形态建成。在促发植物光形态建成中,蓝光受体(Cryptochrome1/2,CRY1/2)发挥着极其重要的作用。
学位
创新,作为国家战略的核心,已成为现阶段国力增长、行业振兴以及企业发展的关键动力。当前我国经济发展位于从总量增速追求到结构性调整的关键时期,对于创新行为及其内涵因子的进一步挖掘,成为了从宏观到微观各个层面经济主体共同重视的核心议题。而企业创新这一经济活动具有独特性质,创新行为所具有的投入产出非对称性、创新团队孵化需具备的高容错性以及创新产出过程中对各种影响因素的高度敏感性,使得创新这一话题,伴随着技
学位
近年来,日益增长的人口数量导致人类对自然资源的需求迅速增加,人与自然环境之间的矛盾也日趋凸显。最近十余年,随着环境人类学的兴起,人类学家开始从人类与环境互动关系中发现问题,并试图用人类学的方法去解决问题。本文以贵州省赤水河流域为例,试图从环境人类学角度揭示赤水河流域水资源存在的问题,进而对缓解水资源冲突提出建议。赤水河是中国高端白酒最集中的生产区域,其中茅台镇是酱香型白酒生产核心区。随着茅台地区产
学位
加强两岸交流是促进祖国统一大业的重要举措,青年学生在两岸关系中发挥着重要作用。闽台高校联合培养人才“3+1”项目(以下简称闽台“3+1”项目)在两岸文化交流中发挥重要作用,该项目2011年被列为国家教育体制改革试点项目,2013年入选第三届全国教育改革创新典型案例并获得创新奖,该项目具有层次高、规模大、特色鲜明等特点。该项目在福建省实施超过10年,来自各方面的经验总结和评价相对较少,尤其缺乏基于学
学位
中国新型政党制度话语权是指中国共产党领导的多党合作和政治协商制度在国际和国内两个话语场域的影响力与控制力,具有引导制度认同,维护我国政治安全,宣扬中国方案等功能。当前,制度竞争是国家间最根本的竞争。中国新型政党制度作为我国的基本政治制度,其话语权的强弱与生存权、发展权密切相连。与西方政党制度具有三百多年的历史相比,我国的政党制度可谓一项新生制度。由于西方占领了政党制度的话语先机,在我国政党制度发展
学位
随着数字经济时代的到来,蓬勃发展的数字技术为经济社会发展的方方面面带来了重大而深远的改变。数字技术不仅提高了数据搜集的速度、降低了数据搜集的成本,还有助于部门之间协调合作和决策水平的提高。而且,党的十九届四中全会还进一步将数据确认为第七种生产要素。作为一种生产要素,如何充分利用数字技术和数字资产进行商业决策并发挥经济价值显得尤为重要。因此,数字经济下企业价值和财务决策行为也受到了社会公众和学术界的
学位
掺杂可以调控和改善功能材料的性能。作为典型的钙钛矿氧化物功能材料,钛酸锶(SrTiO3)具有优异的电学和磁学性质,如高的静态介电常数、大的电子有效质量和较大的塞贝克系数,是较好的电子陶瓷材料之一;近年来因其在光催化领域的高效率、稳定性和强的还原能力,也广泛地用作光催化剂。而宽带隙半导体材料氧化镓(Ga2O3)因其高的光学带隙(4.2-4.9eV)、大的击穿电场、优异的物理化学性能、生产工艺简单、能
学位
组织要不断提升竞争力并实现可持续发展,最为根本的方略就是持续提升高层领导者的战略领导力。战略领导力赋予组织“战略逻辑”,从根本上关注组织的全局整体、把握组织的方向路径、对组织的持续发展负责。责任型领导是战略领导力的重要分支。它最核心的特征是高层管理者在与组织利益相关者对话的过程中,积极协调不同利益相关者的利益诉求,以期实现一个有价值的共同愿景。CEO责任型领导研究具有重要现实意义。首先,CEO责任
学位
股权结构是公司治理问题的逻辑起点(Becht et al.,2003)。在我国股权集中、投资者保护相对较弱的制度背景下(Allen et al.,2005),大股东在公司治理中发挥着举足轻重的作用。近年来,新一轮国有企业混合所有制改革逐步推进,主要的方式包括“推进国有企业混合所有制改革”、“引入非国有资本参与国有企业改革”、“鼓励国有资本以多种方式入股非国有企业”。这意味着在未来一段时间内,“民营
学位
在台湾地区所实行的政治制度中,“选举”已经成为了民众政治生活的主要内容,尤其是其“总统”选举更是成为台湾地区政治、经济、社会、两岸等各方面走向的风向标。从1996年开始的“总统”选举中,本来弱势的民进党赢得了七次选举中的四次,也借此成为了当前台湾地区的第一大党。在历次“总统”选举中,民进党的竞选策略成为其“险中求胜”、“逆风翻盘”的主要支撑,也是其二十多年来由弱变强,多次执政的关键因素。因此,抓住
学位