异质Agent间的知识迁移强化学习

来源 :中国科技论文在线 | 被引量 : 0次 | 上传用户:robert_xt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有知识迁移方法仅适用于同质强化学习Agent问题,提出一种能够在具有不同状态动作空间的异质Agent间迁移知识的Q学习算法。该算法的主要思想是通过新旧Agent共同学习过的任务,利用神经网络离线学习两Agent间的Q值函数映射关系,利用构造的Q值函数映射器把旧Agent学过而新Agent没有学过的任务的Q值映射到新Agent上,从而可以减少新Agent的学习尝试次数,提高学习速度。10×10格子世界仿真结果验证了所提知识迁移Q学习算法的有效性。
其他文献
在企业干部培训中突出学员的主体地位,是马克思主义认识论与科学发展观在培训工作中的体现,符合成人学习方式与现代培训理念。突出学员的主体地位,需要加强需求调研、创新培训方
对T10钢样品经700℃表面盐浴渗铬后进行了重新加热处理.结果表明,重新加热处理后试样表面层的铬元素发生再扩散使渗层增厚,对渗铬层的相组成影响不大,随着重新加热时间的延长
血液透析( hemodialysis,HD)开始于19世纪60年代,美国于1967年建立儿童HD室,我国小儿HD起步较晚,开始于上世纪80年代,随着HD技术推广和在成人患者中的应用增加,近年来,小儿HD在临床得
运用正态分布和T检验原理,对高校体育考核成绩及评分标准的合理性进行分析探讨,寻求解决目前高校体育考核中存在的不合理因素,使学生的体育学习、锻炼效果能得到公正、合理的
醋酸正丙酯对多种合成树脂具有优良的溶解能力,常用于有机合成过程和用作涂料、印刷油墨等的溶剂,也是工业上常用的脱水剂。醋酸正丙酯酯化反应通常采用浓硫酸作为催化剂,但存在
我不明白内容和形式怎样分开。一件将军的铠甲只是铠甲,并不是将军:剥掉铠甲,将军照样呼吸。杀掉将军,铠甲依旧存在。这不是一个妥当的比喻。如若“陀斯妥夫斯基往往是被当做
现阶段,中国电影评论在面临多维度变革之时,呈现出渐趋式微的态势。这一现象的产生主要源于电影评论体系的结构变更与力量失衡,其最为重要的方面在于以大众媒介为载体的严肃
大型物体的三维测量中,大多采用基于标记圆的拼接,标记圆检测的正确性和定位精度决定了拼接的精度.在二值化图像上运用Blob分析得到标记圆的轮廓信息,综合使用标记圆灰度特性
通常入侵者在成功控制系统后会试图更改日志文件以消除入侵痕迹,隐藏入侵行为.为了防止入侵者隐藏其入侵行为,提出了一个日志完整性检测方法,对日志的完整性进行检测,使得入
目的探讨参七消痞颗粒配合针灸对慢性胃炎的疗效。方法选取慢性胃炎患者90例,随机分为对照组和研究组各45例,分别采用参七消痞颗粒和对照组基础上的针灸治疗,观察对比两组疗