基于视觉注意力机制的异步优势行动者-评论家算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:bascin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速
其他文献
住建部《建设事业十一五推广应用和限制禁止使用技术公告》第82项,对模块化同层排水节水系统的定义如下:是指将卫生洁具的排水横支管集成模块化,集合了同层排水与废水收集、储
1蔬菜产业化经营现状1.1生产规模2003年安徽省瓜菜面积达到94.3万hm2,产量约2 543万t,面积和产量均创新高.全省建立6 667 hm2以上蔬菜基地的蔬菜大县27个,1.3万hm2以上的11个
目的探讨早期应用肺泡表面活性物质对新生儿急性呼吸窘迫综合征氧合功能的影响。方法 2011年至2013年,于我院诊治的急性呼吸窘迫综合征新生儿资料中,随机抽取84例进行研究分
目的:分析肺泡表面活性物质对新生儿急性呼吸窘迫综合征氧合功能的影响。方法:选取2013年1月-2015年1月我院收治的56例新生儿急性呼吸窘迫综合征患儿为研究对象,将其随机分为
本文在广泛收集西南地区VGK和DD-1短周期地震仪记录资料、测量了Lg波的4种振幅(Lg_z、Lg_h、mxz、mxh)数据及走时数据的基础上,计算得到西南地区Lg波滞弹性衰减系数γ=0.0031
<正>患者男性,60岁。体检发现左手小指甲下黑色斑片1周余。患者1周前偶然发现左手小指甲下黑色斑片,最大直径0.8cm,无特殊不适。患者既往有肾癌病史,无高血压及糖尿病病史。
地铁作为现代大型城市的最主要的交通工具, 每天承载了几十甚至上百万的人流, 从而形成了一个独特的城市媒体.地铁的媒介包括 地铁本身的媒介效应、 地铁场所的媒介效应及地
本文阐述了传统教学法易使学生因C程序设计教学枯燥乏味而失去兴趣。在此情况下,笔者对此门课进行了初次趣味性教学探索,发现能提高教学对象的积极性及教与学的效率。
本刊曾在今年第15期刊发《山东邮政“试水”中小学教材发行,多年垄断坚冰能否就此打破?》一文,就“山东省邮政公司通过公开招标,成功取得全省中小学教材发行权,一举突破多年来由新
我们作为人民教师,首先要做到的是为人贤德。由于教师是这样任重而道远的职业,因此教师的职业道德修养也显得格外重要。孔子作为一代圣人,同时也是教育界的鼻祖,早在几千年前就为