应用于稀疏奖励问题的分层动作惯性强化学习算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ZWCSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是神经网络技术研究与应用的一个重要领域。强化学习算法主要被用于序列决策和智能体控制任务。在机器人控制、游戏AI和围棋等许多领域中,强化学习都得到了成功的应用。强化学习中的环境奖励对模型的训练起着关键的作用。然而,在很多运行环境中,算法经常会遇到奖励过于稀疏的问题。缺乏有意义的奖励信息会使模型难以高效地寻找到最优策略,这限制了部分场景中强化学习算法的实际应用。因此,研究稀疏奖励问题和其解决办法,对强化学习算法的应用具有重要作用。本文从稀疏奖励问题的产生原因开始,分析了为解决稀疏奖励问题而衍生出来的一系列强化学习算法。在不引入人类产生的专家数据的前提下,缓解稀疏奖励问题的主要思路是鼓励模型探索、从失败经验中学习和任务分解。从这些思路出发,本文做了如下研究工作:首先,提出了基于动作序列交叉熵的强化学习算法。该方法将连续动作间的惯性加入强化学习算法设计的考虑之中,使用动作序列间的交叉熵来控制智能体的动作,以增加智能体动作的平滑程度,减少智能体的无规则运动,使其更接近正常的运动体态。在控制人型仿真机器人的实验中,本文验证了该方法在降低智能体抖动现象,鼓励智能体探索动作空间等方面的作用。接着,提出了分层强化学习中的离线数据序列重构算法。该算法使用一种自下而上的方式对分层模型的离线数据进行替换和重构。在控制四足机器人的仿真实验中,本文验证了该算法在缓解分层强化中的离线误差问题、补充上层模型的离线数据量和减少对训练资源的消耗等方面的作用。最后,提出了分层动作惯性算法。该算法旨在缓解强化学习中的稀疏奖励问题。还提出了对分层动作惯性算法进行网络复用的方法,以加快算法的分层结构的训练速度,减少网络参数量。通过实验,本文验证了算法处理稀疏奖励问题的能力,也验证了对算法进行网络复用的效果。
其他文献
基于会话的推荐系统(RS)利用当前会话中的物品序列预测下一步要点击的物品。近年来,循环神经网络(RNN)和图神经网络(GNN)等深度学习模型被应用于基于会话的推荐。然而,据我们所知,现有的方法忽略了会话图中节点的度数以及频繁子序列的融合,频繁子序列指的是在不同会话中频繁出现的物品子序列。在会话图中,节点的度数一定程度上反映出其在图中的作用大小,节点的度数越大则被点击的可能性越大。此外,从直观上看,
学位
目的:从有效性、安全性、经济性、创新性、适宜性和可及性6个维度,对左卡尼汀口服溶液进行药品临床综合评价研究。方法:系统检索PubMed、Embase、the Cochrane Library、中国知网、万方数据库和中国生物医学文献数据库和CRDWeb等数据库(检索时限为建库至2020年10月),通过快速卫生技术评估的方法对左卡尼汀口服溶液的有效性、安全性和经济性进行分析。检索国家药品监督管理局、国
期刊
实事求是地说,英国文化协会是英国文化外交的主要执行机构。作为一个准政府组织,英国文化协会在传播英国文化、塑造英国形象和提高英国国际地位方面发挥着重要作用。此外,英国文化协会在语言传播方面有着突出的作用,这对英语世界语言地位的确立作出了巨大贡献。本文试图从文化外交的角度,深入探讨英国文化协会的语言传播策略、活动及其效果。此外,本文还试图分析英语语言传播的软实力功能以及其与软实力的关系。最后,本文将阐
学位
20世纪60、70年代,嘻哈文化起源于美国纽约两大黑人聚居区(布朗克斯区和哈莱姆区)的底层非裔青年中。彼时的纽约种族隔离现象严重,美国政府故意无视隔都恶劣的生存状况,大幅削减福利支出,使得非裔青年陷入绝望。由DJ打碟、说唱乐、霹雳舞、涂鸦四大要素构成的嘻哈文化由此诞生。嘻哈文化继承了哈莱姆文艺复兴运动和黑人文艺运动对黑人身份与黑人文化的强调,并受到嬉皮士文化、多元文化主义的影响,体现出对主流文化价
学位
问答系统在自然语言理解中发挥着重要作用,是评价对于数据集进行阅读理解相关能力的替代方式,具体的问答方式包括有:范围提取、多项选择和开放领域等等。然而这些数据集都有明显的限制:其一为缺乏数学推理,数学推理作为人类的智力技能,该考验可以进一步推动问答推理的发展;另一方面缺乏推理的可解释性。这些都阻碍着问答社区之后的发展。为了解决上述的缺陷,我提出了一个新的数据集——Noah QA。该数据集引入数学应用
学位
本文从文化工业理论视角出发,结合上世纪美国流行音乐产业的发展,从生产、流通、消费三个阶段讨论了文化工业的特性和流行音乐产业被文化工业收编的过程。本文认为文化工业具有标准化、商品化、商业化、技术化、程式化、伪个性化六个特点。流行音乐在发展过程中呈现出的这些特点体现了它被文化工业收编的过程。其次,本文通过分析麦当娜的形象和音乐作品的文化反抗性质,并结合伯明翰学派关于工人阶级的理论思路讨论了文化工业内部
学位
自2000年以来,国内伺服驱动技术飞速发展,实现了从无到有的转变,涌现出了一批优秀的民族企业。从技术水平及市场占有率的角度分析,本土品牌在中低端市场已经占据了一席之地,但是极限性能和智能化程度距离国外顶尖厂商尚有一定差距,高端伺服市场仍然被欧美和日系产品所占据。因此,高性能永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)交流(Alternating C
学位
依据国家林业和草原局、农业农村部2021年9月发布的《国家重点保护野生植物名录》,查阅中国科学院华南植物园标本馆(IBSC)、华南农业大学林学与风景园林学院树木标本室(CANT)、中国数字植物标本馆(CVH)等馆藏标本,以及相关文献,结合近年来的野外调查记录,整理出新版广东省国家重点保护野生植物名录及地理分布数据,利用Arc GIS软件,对其分布格局进行分析。结果显示,广东省国家重点保护野生植物共
期刊
数据共享开放和流通是提升沉淀静态数据价值并转换为动态资产能力的一种实现方式,通过行业间的数据共享互换从而构建多维度且丰富的数字经济产业。在数据为核心的思想下,数据在共享交换过程中的安全性、便捷性以及多方权益的考虑将直接影响到该经济产业形态下参与各方的合作意愿度。在当前的解决方案中,更多的是将多方数据汇聚于中心化的存储网络,并通过远程调用实现数据的获取,此种方案存在数据同步困难、存储维护成本高以及数
学位
按照人体由内及外的抽象结构顺序,分别从心脏电传导系统、心脏结构(包括瓣膜、心肌、冠状动脉等)、心脏外部其他系统等方面,列举人工智能(artificial intelligence, AI)特别是深度神经网络在心电分析领域的最新研究进展。本文介绍了AI心电分析技术在识别心律失常、电解质紊乱、心脏瓣膜病、冠心病及循环系统、消化系统等疾病方面的应用,还涉及其在个人身份识别领域的创新应用,以及迁移学习等A
期刊