【摘 要】
:
深度强化学习方法已在Atari电子视频游戏和机器人控制等复杂决策领域中表现出突出的学习能力。然而,深度强化学习的学习过程完全依赖环境的奖励作为反馈,因此很难在奖励稀疏的环境中学习到有效的策略。作为高级智能体,人类具有丰富的知识与强大的感知与推理能力。本文基于人机协作的思想,通过自然语言的形式,将人类的高级智能引入到强化学习智能体的训练过程中,在智能体做决策时提供人类的先验知识作为辅助,同时给出额外
论文部分内容阅读
深度强化学习方法已在Atari电子视频游戏和机器人控制等复杂决策领域中表现出突出的学习能力。然而,深度强化学习的学习过程完全依赖环境的奖励作为反馈,因此很难在奖励稀疏的环境中学习到有效的策略。作为高级智能体,人类具有丰富的知识与强大的感知与推理能力。本文基于人机协作的思想,通过自然语言的形式,将人类的高级智能引入到强化学习智能体的训练过程中,在智能体做决策时提供人类的先验知识作为辅助,同时给出额外的反馈作为环境奖励的补充,从而解决强化学习智能体在稀疏奖励环境中的学习问题。首先,本文提出基于自然语言奖励构造的人机协作深度强化学习方法。奖励构造通过构建额外的奖励函数使问题变得更易于智能体学习,然而设计奖励函数对非专家较为困难。为此,本文通过提供给智能体自然语言形式的指令,并对智能体的执行效果进行判断,给予智能体额外的奖励,实现奖励构造,从而对智能体的学习过程进行指导。其次,本文将后见经验回放(Hindsight Experience Replay,HER)与自然语言表示相结合。HER基于“后见之明”的思想,在智能体采取行动后修改智能体的目标,将失败的经验转换为成功的体验,从而解决稀疏奖励的问题。然而HER缺乏简明而通用的目标表示形式而具有有限的适用性。本文提出以自然语言作为目标的表示形式,并结合基于完成度的奖励构造实现后见经验回放,辅助强化学习智能体在稀疏奖励环境中的学习过程。本文通过Atari电子视频游戏来验证算法的效果。为了实现算法与游戏环境的交互,本文使用了 OpenAIGym平台,并选择了具有典型稀疏奖励特点的Montezuma’s Revenge作为实验环境。通过一系列实验与分析,本文验证了基于人机协作的强化学习方法在稀疏奖励环境中的有效性,并通过与基准模型的对比进一步验证了算法的性能。
其他文献
目的 探讨智能互动定性定量分析(IQQA)技术应用于中度复杂性肾肿瘤腹腔镜肾部分切除术的可行性、安全性和有效性.方法 选择2018年1月—2019年6月收治的16例中度复杂性肾肿瘤(
【目的】为了解某省疾病预防控制(疾控)机构食品安全风险监测能力现状,为今后加强食品安全监测能力建设提供参考或依据。【方法】对承担2018年该省食品安全风险监测任务的14家疾控机构进行自填问卷调查。【结果】食品检验人员高、中、初级及以下职称构成比为1∶1∶1,省、市两级食品检验人员学历主要以本科及以上为主,省直管县主要以大专学历为主;省级年龄构成趋于老龄化,省直管县工作经验较少的人员偏多;机构实验室面积达标率为50%;省、市、省直管县疾控机构食品监测设备种类配置率分别为83.3%、79.5%和36.3%;1
目的 分析非胰腺来源壶腹周围癌(NPPC)患者行胰十二指肠切除术后发生外科并发症的危险因素,评估并发症对患者预后的影响.方法 选择2014年8月—2018年8月因NPPC在复旦大学附属
[目的]评估上海市金山区疾病预防控制信息系统用户的信息安全素养现状,探讨影响信息安全素养的因素.[方法]通过文献研究、德尔菲法等方法设计信息安全素养调查问卷,对金山区
为探究孟鲁司特在儿童支气管哮喘治疗中的作用及机制,自海南医学院第二附属医院收集108例急性支气管哮喘病例,随机分为孟鲁司特治疗组63例和常规治疗组45例.检测治疗前后患儿
【目的】观察蚊虫综合防制措施对降低居民区地下车库蚊虫密度的效果,为探索地下车库蚊虫密度控制新模式提供科学依据。【方法】2018年4—10月,观察组通过设立专管人员,将物业管理与灭蚊工作融合、持续清理蚊幼孳生地、适当投放化学药物,开展防、灭蚊知识强化培训与健康宣教等综合防制措施,与对照组(未做干预)进行对比,分析上述综合措施对降低地下车库蚊虫密度的效果。【结果】实施综合防制措施后,观察组地下车库平均成蚊密度、积水蚊幼阳性率明显低于对照组,且差异有统计学意义(P<0.01)。观察组地下车库雨水井、污水井
侵袭性真菌感染的患者通常免疫功能低下,适宜选用安全性高的亚单位疫苗,目前提高该类疫苗保护有效性的研究重点是如何激发强烈的T细胞和固有免疫免疫应答。本文据此综述了研究预防侵袭性真菌感染疫苗的免疫抑制造模方法、免疫功能和信号通路指标,为尽快研究出临床有效的侵袭性真菌疫苗提供参考方法。
目的 探讨医疗联合体的社区联合病房对合并焦虑和(或)抑郁的COPD住院患者实施延伸干预的疗效.方法 本研究为前瞻性临床研究,纳入对象为2018年4月1日—2019年3月31日上海市第
本文是一篇汉译英翻译实践报告,所翻译的内容是水利专家刘树坤等人编著的《水与生态环境》一书中的第五章第七节水生态环境建设。本篇翻译报告主要以韩礼德和哈森的语篇衔接理论作为指导,以《水与生态环境》节选内容为语料,在进行文本翻译实践后,分析研究语篇衔接理论在汉译英信息型文本翻译实践中的运用。本篇翻译报告还对此次翻译实践的整个过程进行了回顾与概括总结,简要介绍了翻译材料的相关背景,通过分析翻译例句来展现语