基于注意力机制的异步深度强化学习

来源 :苏州大学 | 被引量 : 0次 | 上传用户:a2652765
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结合了深度学习和强化学习,深度强化学习(DRL)在许多领域得到广泛的应用,是目前机器学习领域的研究热点。DRL算法利用深度学习对输入数据进行特征提取,而后强化学习以特征信息作为状态输入进行策略学习。DRL算法存在着计算量过大、训练时间过长等问题,异步深度强化学习(ADRL)利用多线程技术极大缩短了学习模型的训练时间。然而在基于视觉感知的游戏任务中,传统的ADRL方法在算法训练中无法充分利用具有重要价值的图像特征和图像区域,以及算法的收敛速度较慢。针对上述问题,本文将特征注意力机制、视觉注意力机制和基于优先级扫描的Dyna结构优化方法引入到ADRL算法中,提出基于注意力机制的异步深度强化学习方法,具体研究内容如下:(1)基于特征注意力机制的异步优势行动者评论家算法。ADRL算法在处理基于视觉感知的大规模状态空间任务时,智能体获取到的信息是整幅原始图像的所有特征信息。智能体均衡处理所有的状态特征,导致了学习模型无法重点关注有价值的特征信息,从而在前向传播中丢失部分重要信息。针对此问题,提出一种特征注意力机制,并将其引入ADRL算法,提出一种基于特征注意力机制的异步优势行动者评论家算法。(2)基于双重注意力机制的异步优势行动者评论家算法。基于特征注意力机制的ADRL算法能够有效利用图像的重要特征信息,但是依然存在着部分有价值的图像区域信息未被充分利用的问题。针对此问题,将视觉注意力机制引入基于特征注意力机制的ADRL算法中,提出一种基于双重注意力机制的异步优势行动者评论家算法。该算法从图像特征和图像区域两个维度来描述原始图像的状态信息,帮助智能体高效地学习到最优策略。(3)基于优先级扫描Dyna结构的异步优势行动者评论家算法。上述两种新算法是基于深度神经网络模型来改进的,ADRL算法的优劣性不仅与模型架构息息相关,还与强化学习算法有着密切联系。为了缩短ADRL算法在某些视觉感知任务中的收敛时间,将基于优先级扫描的Dyna结构优化方法引入ADRL算法,提出一种基于优先级扫描Dyna结构的异步优势行动者评论家算法。上述基于传统ADRL算法的改进算法,以Atari 2600仿真游戏作为实验对象,与现有ADRL算法作对比,验证了新算法的有效性。基于注意力机制的ADRL算法能够有效利用输入图像的重要信息,提升了算法的学习性能;基于优先级扫描Dyna结构的ADRL算法避免智能体过多探索无意义的状态,缩短了算法的收敛时间。
其他文献
正交频分复用系统(OFDM)是一种特殊的多载波传输方案。系统具有较强的抗干扰能力及较高的频谱利用率等优点,因此已被很多数字通信标准所广泛采用,目前已成为5G无线通信的关键
目的:探讨胱抑素C与老年急性缺血性卒中后早期神经功能恶化之间的相关性。方法:选取2017年12月至2018年5月期间由本院收治、年龄≥60岁的140例急性缺血性卒中(AIS)患者,并分析其一般资料、临床资料。根据血清胱抑素C水平将患者分为2组,低分组45例,高分组95例。根据美国国立卫生研究院卒中量表(National Institutes of Health Stroke Scale,NIHSS
随着GPS定位、卫星导航、无线通信等技术的快速发展,民用GPS等定位设备不断普及和广泛应用。这些GPS移动终端设备以及基于位置信息服务(Location Base Station)的各种应用产
忆阻的概念自1971年被提出至今已有近45年的发展历史。自2008年以来,忆阻器在仿生物突触方面的研究已取得很大进展,绝大多数研究工作都致力于通过忆阻器来实现模拟人脑记忆和
为了提高生物质资源利用率,同时开发低毒无害的果蔬保鲜剂,本实验以生物质热解液为主要的实验材料,进行了生物质热解液和壳聚糖对辣椒炭疽病菌的抑菌实验和复合保鲜剂的配制,
研究背景与目的:非酒精性脂肪性肝病(fatty liver disease,NAFLD)是指一组因机体代谢紊乱所致的以肝细胞脂肪变性为主要特征的临床病理综合征。NAFLD在早期是可逆的,发病进展
量刑偏差现象的显著表现在于“同案不同罚”,这一现象的存在势必影响司法权威和社会的公平公正。通过比较审判实践中的相似案例发现,基准刑是影响量刑偏差的关键因素。在研究基准刑的相关问题时,明确界定基准刑的概念十分必要,不能将基准刑和量刑基准混同。现阶段我国基准刑确立存在的主要问题有:一是部分犯罪量刑起点的适用范围过于宽泛,法官难以准确确定量刑起点;二是用于调节量刑起点的犯罪事实过于随意,相似罪名之间对其
植物黄酮是一类结构和活性复杂多样的重要次级代谢产物,在医药、农业和食品加工领域具有广泛的用途,但低溶解性和低生物利用度等特性限制了黄酮功能的发挥。微生物转化可在温
冰结构蛋白是一类生物体为抵御外界寒冷环境的应急反应过程中而产生的多肽,具有热滞活性、阻止冰晶形成、修饰冰晶形态及抑制重结晶的能力。本文以“肇东”紫花苜蓿干草为原
强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目标策略是否相同,强化学习方法可分为同策略