面对模型不可知的元深度强化学习优化技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:xiaoxianjihuoma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能研究在深度学习和大数据的深入结合的趋势下已经发生了革命性的进步。深度强化学习(DRL)在传统强化学习的基础上结合了神经网络强大的建模能力,能够在各类决策控制任务中展现出了自身独有的高效性能,引起了学术界和工业界越来越多的关注以期实现通用人工智能的愿景。然而许多实际强化学习应用都要求智能体快速学习多个相似任务,为了达成针对一类任务进行快速学习的目的,研究员们提出了利用先验任务经验来解决新任务少样本训练的元深度强化学习。当前主流的基于策略梯度的模型不可知元深度强化学习算法因其具有广泛的适用性并能实现对新任务的快速适应而在各种场景发挥越来越重要的作用。然而,现有的元DRL通常也面临着诸多问题和挑战。首先,他们使用简单的高斯近似从几个训练样本中学习新任务往往会引起很大的不确定性,导致模型精确度不足。其次,他们在利用以前的经验来指导探索新任务方面存在不足,无法快速适应奖励稀疏的新环境。针对以上两个问题,本文进行了如下研究:为了解决基于策略梯度的元DRL训练中的模型不确定性,高方差、收敛速度慢等问题,本文提出一种基于贝叶斯参数更新机制的元模型不可知深度强化学习(Bayesian-MAML),该方法有如下优点:(1)该方法在对先前任务的快速适应过程中可以比简单的高斯近似更灵活地学习任务后验的不确定性;(2)该方法结合了马尔科夫链蒙特卡洛方法和变分推理的优势,可以有效减少目标分布和近似分布之间的差异。实验结果表明,Bayesian-MAML利用贝叶斯参数更新机制来代替简单的高斯近似,可以有效地提高学习模型在解决复杂不确定性任务的表现。为了解决当前元DRL在类似现实任务的奖励稀疏任务下算法探索性能不足的问题,本文分析了现有元DRL在利用先验任务经验进行探索存在的不足,进一步提出一种基于潜在嵌入空间模型的模型不可知的元深度强化学习算法(LSE-MAML)。该方法利用先验经验训练一类任务的策略,并额外训练每一任务对应的潜在嵌入空间模型,旨在利用潜在嵌入空间模型来向策略提供一个与时间相关的随机性以实现策略的有效化和结构化。大量实验表明,LSE-MAML可以提供有效的探索策略,可以提高在类似现实要求的奖励稀疏复杂任务中的性能。
其他文献
随着我国综合国力的日益强盛和国际影响力的逐渐提升,越来越多的外国学生选择来华留学,我国来华留学生队伍不断壮大。为切实保障来华留学生发展,培养来华留学生成长为“知华、友华”的国际人才,做好来华留学生思想教育工作非常必要,意义重大。全员育人、全程育人、全方位育人的“三全育人”理念对来华留学生思想教育具有相当大的契合性。全员育人是要解决谁来对留学生进行思想教育的问题,全程育人是要解决育人多久的问题,即从
学位
列宁灌输理论作为推进我国社会主义理论传播和指导人民群众思想工作的基础理论,在我国思想政治教育实践中发挥了重要作用。但随着时代的不断发展,曾经的思想政治教育环境和实践形式也相应地发生了转变。因此学术界对于列宁灌输理论在我国思想政治教育中的理论定位及其实践意义产生了争论,对列宁“灌输理论”在实践过程中的角色定位产生了分歧。本文在已有的研究成果基础上,对列宁灌输理论在我国思想政治教育实践中所发挥的作用进
学位
随着网络信息技术的发展,我国网络用户数量与日俱增,网络逐渐成为思想文化交流的主阵地。自党的十八大以来,以习近平同志为核心的党中央高度重视网络意识形态工作,在宣传工作会议等众多重要会议发表关于开展网络意识形态工作,维护网络意识形态安全的重要论述。文章通过充分收集相关重要论述并进行系统梳理,分析该论述形成的现实背景和理论基础,归纳概括主要内容和实践路径,总结理论特色和价值意蕴,对进一步把握网络意识形态
学位
对节约问题的思考是马克思在理论探索中的重要内容,也是马克思开展对资本主义政治经济学批判的重要途径。在已有的研究成果中,学者们大都围绕时间的节约规律来阐释马克思的节约思想,并围绕社会形态演进和经济发展等领域形成了一批富有成效的研究成果,但在系统性和综合性上还有所欠缺,尤其是鲜有从生产方式上对节约问题进行根本性考察。此外,当今社会还存在着较为严重的浪费现象,距离真正做到节约,实现高质量发展还有较长距离
学位
随着对工业产品质量要求的日益提高,产品表面缺陷检测成了生产加工的重要环节。由于生产环境中不可控因素的干扰,产品表面缺陷难以量化,这一特性让传统的基于规则的机器视觉检测方案效能不佳。深度学习的发展为产品表面缺陷检测提供了新思路和替代方案。本文基于U-Net++网络的基本结构,结合一种工业产品——铆钉的表面缺陷特点,从数据增强、整体网络架构、损失函数以及卷积块进行了一系列的改进,提供了一种优化的缺陷检
学位
<正>为强化广大交通参与者交通安全素养,提升文明守法意识,聚焦重点区域、时段,开展路面宣传并及时阻止未戴头盔等交通违法行为,严格遵守道路交通安全法律法规,让道路更加安全。黄山交警护航采茶季交通安全黄山市公安局交警支队组织警力和村干部一道深入茶园、茶叶加工厂和交易市场等地,开展交通安全宣传,确保采茶季道路交通安全。
期刊
为探索高丛蓝莓品种在贵州不同海拔生态区的栽培适应性,选择了莱克西、南大、绿宝石、密斯蒂、珠宝、蓝雨等6个品种,分别在海拔760、1 190、1 500和1 850 m等4个生态区进行栽培试验。结果表明:莱克西、绿宝石、密斯蒂和蓝雨的树高随海拔升高呈先上升后下降的趋势,南大和珠宝则是不断下降,其中珠宝下降趋势最明显,除莱克西以外的5个品种的单株产量也呈显著降低趋势;随着海拔上升,6个品种的新枝萌发力
期刊
<正>统战工作,对外广交朋友,对内搞好和民主党派、宗教人士、少数民族人士的关系,是习仲勋关注的问题之一。一次,与一个香港大法官罗德成先生见面,习老语重心长地说:"你是香港大法官,要为将来香港回归,从法律上多提供帮助,为回归
期刊
报纸
党的十八大以来,科技扶贫作为我国扶贫思想由“救济式”走向“开发式”转变的表现之一,为解决全国范围内的绝对贫困问题和确保2020年如期实现全面建成小康社会发挥了重要作用,是我国扶贫理论和制度创新的突出表现。在这样的背景下,本文立足于马克思恩格斯反贫困思想和科学技术思想,系统探究了新时代我国科技扶贫的理论基础与现实关照、具体模式与经验总结、阶段挑战和发展思考,进一步阐释分析了新时代中国科技扶贫的现实合
学位