基于层次控制的多智能体对抗研究

来源 :军事科学院 | 被引量 : 0次 | 上传用户：LanceXulei

【摘要】

：

【作者】

：

王功举

【机构】

：

军事科学院

【出处】

：

军事科学院

【发表日期】

：

2021年01期

【关键词】

：

复杂动作状态空间分层强化学习算法多智能体强化学习算法双向协调网络预训练模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着深度强化学习的快速发展,多智能体深度强化学习技术广泛应用于机器人控制、自动驾驶、军事决策、围棋以及视频游戏等诸多领域,在这些领域中发挥越来越重要的作用。目前,多智能体深度强化学习面临的一个重要挑战问题是,在复杂动作状态空间场景下,智能体如何高效地学习到有效策略问题。为此,本文围绕该挑战问题展开研究,针对单智能体策略学习问题,提出了一种基于预训练模型的分层强化学习算法;针对多智能体策略学习问题,提出了一种基于双向协调网络的多智能体强化学习算法;在此基础上,基于《星际争霸2》对抗学习环境,设计实现了一个基于层次控制的多智能体强化学习原型系统,设计了一系列实验场景,对本文工作的有效性进行了实验验证。概括起来,本文的工作主要包括如下三个方面:（1）针对复杂动作状态空间场景下单智能体策略学习问题,提出了一种基于预训练模型的分层强化学习算法。该算法分为三个层次:首先,基于先验知识为每个子策略设计了适宜其相应时间的宏动作;其次是子策略控制器,其核心是基于监督学习的方法,训练能够适应不同需要的子策略,基于随机的宏动作产生子策略监督学习的数据,并且子策略只学习胜利时的操作轨迹;最后是智能体的高级策略控制器,基于策略梯度算法进行扩展,屏蔽了底层繁琐的动作,只对于下层的子策略进行选择,使得作为决策的神经网络参数能够做出更好的动作。（2）针对复杂动作状态空间场景下多智能体策略学习问题,提出了一种基于双向协调网络的多智能体强化学习算法。该算法基于Actor-Critic框架,其特点是:基于全局信息训练Critic网络,用以解决场景中马尔可夫性缺失问题;采用双向RNN网络结构,用以解决场景中多智能体信息通信问题;使用动作映射算法,使得智能体选择收益最高的合法联合动作。（3）基于上述研究成果和《星际争霸2》对抗学习环境,将单智能体强化学习算法和多智能体强化学习算法进行有机融合,设计实现了一个基于层次控制的多智能体强化学习原型系统,并进行实验验证,验证了本文所提出算法的有效性。

其他文献

奥曲肽可吸入微粉制备及其性能研究

多肽药物在疾病治疗上具有良好的应用前景,但在采用口服或静脉注射等常规方式给药时,存在易被酶降解消除、半衰期短、生物利用度低等不足。目前的主要制剂形式为需要重复给药的静脉或皮下注射,患者依从性低,使用不便,且容易对细胞组织造成伤害和引发感染,对非侵入性新型给药方式及其制剂需求迫切。肺部给药的干粉吸入剂便于携带、操作简单,患者顺应性好,且无需抛射剂、防腐剂及溶剂,递送剂量准确,特别适用于多肽药物吸入给

学位

奥曲肽多肽药物可吸入微粉干粉吸入剂超临界抗溶剂冷冻干燥喷雾冷冻干燥生物利用度

基于“消线法”CRISPR侧向流层析试纸的新型冠状病毒（SARS-CoV-2）核酸检测技术研究

2020年至今,由新型冠状病毒（SARS-CoV-2）引发的新冠肺炎（COVID-19）波及全球,确诊人数持续增加,在造成人员死亡和经济损失的同时,也产生了严重的社会恐慌,已构成“国际关注的突发公共卫生事件”。SARS-CoV-2较强的传染性、突变性和致病性,以及COVID-19成熟治疗、预防手段的缺乏,给疫情防控工作带来了巨大的挑战。作为疫情防控工作的第一步,快速准确的诊断技术有利于对散发病例的

学位

新型冠状病毒CRISPR侧向流层析试纸核酸检测

活性炭对苯和环己烷吸附性能的比对研究

包括挥发性有机化合物（Volatile Organic Compounds,VOCs）在内的各种有毒有害物质对人类本身、人类的生产生活以及人类的生存空间都产生了严重的危害,是不容忽视的职业病危害因素。在这类有毒有害环境中,呼吸防护装备尤为重要。防毒面具可以过滤化工行业或危险品泄漏场所环境中的有毒气体,使人体免于有毒化学品的危害。GB 2890—2009《呼吸防护自吸过滤式防毒面具》中采用苯作为过滤

学位

苯环己烷活性炭吸附性能过滤元件

复杂环境下搜救机器人路径规划方法研究

目前,搜救机器人广泛应用于战争、自然灾害和NBCR等的现场勘察和伤员搜救等任务中。与常见的结构化环境不同,复杂的灾后环境下的各类障碍物以及非结构化地形会对机器人的自主运动带来极大挑战。因此,提升搜救机器人在非结构地形等复杂环境下的自主导航与路径规划能力,对于提高搜救机器人的救援效率、增强未知环境下的生存能力具有重要意义。寻找一条从起点到目标点无障碍的最短或最优路径成为提升搜救机器人自主导航能力的关

学位

搜救机器人路径规划蚁群算法动态窗口法复杂环境

基于前药策略设计具有构象动态转化的反义核酸的研究

核酸药物作为目前国际上重点关注的一类新型生物技术药物,具有设计方便、应用性广、特异性强、不易产生耐药等特点。核酸药物以与疾病发展进程紧密相关的mRNA等核酸序列为靶标,由于蛋白序列编码以及碱基配对特异性,核酸药物具有“治标治本”的优点和巨大的应用前景。已上市的核酸药物种类包括si RNA、反义核酸、核酸适配体,其他核酸药物还包括核酶、sa RNA等。反义核酸作为核酸药物的重要类别,开发最为成熟。反

学位

反义核酸发夹结构PEG订书结构肿瘤

肝癌血浆外泌体的蛋白质组学研究

肝细胞癌（HCC,Hepatocellular carcinoma）是原发性肝癌的主要类型,约占肝癌总数的75%。在全世界范围内,在所有恶性肿瘤中,肝癌的发病率排行第六,死亡率排行第四。根据2018年的估计,全球肝癌的发病率约为9.3/100,000,死亡率约为8.5/100,000。在我国,肝癌的发病人数和死亡人数约占全球的50%。肝癌的主要致病因素有慢性肝炎病毒感染、酗酒和非酒精性脂肪肝等。肝

学位

外泌体肝癌蛋白质组学肿瘤标志物

面向小样本图像分类的度量元学习方法研究

小样本学习旨在仅依赖少量标注数据实现对新类别样本的高效拟合,这一研究是机器学习领域的重点课题。研究并实现高精度小样本图像分类将使得医学图像处理、无人驾驶避障、实现智能侦察等困难课题迎刃而解,同时也将为自然语言处理、小样本目标检测与跟踪、机器人与强化学习等研究提供技术支撑。然而现阶段的小样本图像分类算法普遍存在结构复杂、需要面向新任务微调、鲁棒性差等问题,为此,本文提出了基于重赋权法的原型网络模型以

学位

元学习小样本学习度量学习图像分类深度学习

基因差异表达和差异共表达分析的整合策略研究及在癌症标志物鉴定中的应用

基因往往不是独立发挥作用,而是多个基因相互协调,共同参与某一生物学过程。在基因共表达网络中,表达水平相似的基因组成共表达模块,这些模块通常被描述为一组功能相关或共调控的基因子网,参与共同的生物学过程。相对于健康样本,研究人员将疾病中新建立或失去共表达现象的基因模块称为差异共表达（Differential co-expression,DC）基因模块,它们可以用来研究复杂疾病中失调的生物过程。近年来,

学位

癌症共表达网络差异共表达分析差异表达基因共表达模块基于集成的分析框架

肺表面活性物质对大气超细颗粒物毒性和跨膜效率的影响研究

大气超细颗粒物（PM1）是指空气动力学粒径≤1μm的悬浮在空气中的固态或液态物质,PM1是造成空气污染的重要原因之一。目前的研究已经证实,包括PM1在内的大气颗粒物污染会对人体产生诸多的负面健康效应。PM1可以突破呼吸系统的防御屏障沉积到肺泡部位,进而穿过气血屏障进入到内环境中,造成肺部以外的负面健康效应。肺表面活性物质（Pulmonary surfactant,PS）在正常生理条件下广泛存在于肺

学位

肺表面活性物质PM<sub>1</sub>细胞毒性跨膜效率

锰基复合纳米金属氧化物对H类毒剂的消毒研究

纳米金属氧化物是吸附-反应型化学毒剂催化消毒材料中重要的一类,它们对G、V类含磷毒剂表现出较好的消毒能力,但普遍对H类糜烂性毒剂消毒效果不理想,而多晶型纳米MnO2却表现出对HD良好的消毒性能。本文旨在探究氧化锰晶体结构对H类毒剂的消毒性能的影响,构建复合锰基氧化物消毒体系并进一步提升消毒性能,拓展锰基氧化物在化学毒剂洗消领域中的应用。本文以糜烂性毒剂HD及其模拟剂2-CEES为研究对象,系统研究

学位

二氧化锰复合锰基氧化物消毒化学战剂

基于层次控制的多智能体对抗研究

与本文相关的学术论文