基于联合训练的强化学习方法

来源 :信息技术与信息化 | 被引量 : 0次 | 上传用户:jiangshuang_1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
很多深度强化学习算法在应用时的数据利用率都很低,这限制了模型的泛化能力与适用性。本文通过实现多个任务间的策略共享来实现对数据学习效率的提升。在联合训练多个任务的过程中,通过蒸馏和迁移学习实现不同任务中策略的传输与筛选,并加以精炼。通过建立一个共享的核心"蒸馏"策略,来捕捉不同任务中产生的共同行为,并针对不同任务设定目标函数对各自策略加以精化后让一个核心智能体进行学习。每个智能体在学习自身任务策略的同时通过约束条件被迫保持接近核心共享策略。
其他文献
为深入贯彻国务院关于开展打击侵犯知识产权和制售假冒伪劣商品专项行动工作部署,落实市领导的有关指示和《重庆市打击侵犯知识产权和制售假冒伪劣商品专项行动实施方案》的要
随着高校的扩招,其基本建设力度逐渐加大,由于基建投入大,专业性强,管理要求高,建筑市场竞争激烈,高校基建管理本身弱化,高校基本建设腐败案件不断增加。解决高校基建腐败,当务之急是
高技能的技术工人是企业人才队伍的重要组成部分,是技术工人队伍的核心骨干,在加快企业优化升级、提高企业竞争力等方面具有不可替代的作用。国有企业由于各种各样的历史原因,目
各区县(自治县)人民政府,市政府有关部门:根据《国务院关于实施成品油价格和税费改革的通知》(国发(2008)37号)和《财政部国家发展改革委监察部交通运输部农业部审计署国家林业局关于
【摘要】 目的:探讨肱骨螺旋内固定器对肱骨外科颈骨折患者肩关节功能与疼痛症状的影响。方法:选取2018年2月-2019年12月本院收治的92例肱骨外科颈骨折患者,患者均采用肱骨螺旋内固定器治疗。比较患者治疗前后的肩关节功能(Neer评分系统)、疼痛症状(VAS评分)、肩关节活动(前屈上举度、体侧外旋以及内旋范围)、生活质量(社会功能、躯体功能、角色功能和认知功能)。结果:治疗后,患者的Neer评分
一、公共收入规模与宏观税负(一)公共收入规模。公共收入规模有绝对规模和相对规模之分。公共收入绝对规模是指公共收入的绝对额,由于各国大小不同,简单地强调公共收入的绝对规模
在当前时期,国家和政府针对幼儿阶段的教育重视程度不断提升,同时也出台了相应的政策和制度与规范幼儿教育, 但是幼儿教育很容易出现小学化的现象,这主要是由于多方面原因影
【正】5月22日,在国际生物多样性日到来之际,环境保护部在京举行纪念大会。环保部部长陈吉宁、中国科学院副院长施尔畏、《生物多样性公约》执行秘书迪亚斯、中国生物多样性
为贯彻落实党中央、国务院关于高等教育要全面贯彻科学发展观,切实把重点放在提高质量上的战略部署,根据《教育部财政部关于实施高等学校本科教学质量与教学改革工程的意见》(教
温家宝总理在全国职业教育工作会议上提出“大力发展中国特色的职业教育”。因此,坚持科学发展观,准确定位各个高等职业技术院校的办学特色,努力实现高等职业教育的培养目标,对大