多智能体强化学习的剪枝方法应用研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yidingtongguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度神经网络的蓬勃发展,强化学习领域也取得了大量突破,这让多智能体强化学习(MARL)受到了广泛的关注。但与此同时,MARL也面对着很多挑战,例如联合动作空间巨大、由于其他智能体策略变化导致的环境不稳定问题、全局信息受限导致仅能获得环境部分观测等。其中联合动作空间巨大会导致巨大的计算量,如何减少计算量一直是研究热点。模型剪枝可以减少神经网络模型的参数量,同时减少计算量。当前已经有研究表明,模型剪枝方法不仅可以应用于传统的图像处理领域,还可以应用在自然语言处理和强化学习中。受此启发,本文对多智能体强化学习的剪枝方法应用进行研究。首先,对剪枝方法在多智能体强化学习中的应用进行研究。实验框架选用多智能体强化学习框架SMAC,分别采用全局剪枝方法和分层剪枝方法对神经网络模型进行处理。实验结果表明剪枝方法可以很好地应用于多智能体强化学习中,在显著减少网络模型参数量的同时,保持和完整网络接近的表现。然后,针对全局剪枝方法在进行到剪枝过程后期时,网络模型的准确率会随网络结构失衡陡然下降的问题以及传统分层剪枝方法对于网络特征信息利用不充分的问题,提出了基于网络特征的分层剪枝方法NS-IPM(Network-Structure-based Iterative Pruning Method)。实验结果表明,NS-IPM表现良好,既可以一定程度避免全局剪枝方法的结构失衡问题,也可以更充分的利用网络特征信息。但是,作为一种剪枝方法,NS-IPM的有效性仍需在图像处理领域进行验证。为此,我们在图像识别数据集CIFAR-10上进行实验,采用VGG-16和Resnet-20作为网络模型,将NS-IPM分别与全局剪枝方法和传统分层剪枝方法进行对比。实验结果表明,基于网络特征的分层剪枝方法在VGG-16模型上表现良好,在压缩率高出接近一倍的情况下,准确率仍比单剪枝率的分层剪枝方法高3.6%,且整体表现优于全局剪枝方法。当压缩率到达98.85%以上时,在Resnet-20模型上的准确率比单剪枝率的分层方法高20%,接近于全局剪枝方法。这证明了NS-IPM方法充分利用了网络特征,并提高了分层剪枝方法的表现,与传统分层剪枝方法相比具有明显优势,为传统分层剪枝方法的应用受限情况提供了一种可选择的解决方案。更重要的是,实验结果也证明了,NS-IPM方法不仅在多智能体强化学习场景中表现良好,而且也可以很好的应用于图像识别领域。这说明NS-IPM是一个适用性强且有效的剪枝方法,为多智能体强化学习的研究提供了一种新的研究思路和方法。
其他文献
目的:评价化滞柔肝颗粒治疗非酒精性单纯性脂肪肝(湿热中阻证)的安全性和有效性。方法:选取自2020年7月至2021年4月于黑龙江中医药大学附属第二医院消化科门诊就诊的50例符合标准的非酒精性单纯性脂肪肝(湿热中阻证)患者,给予化滞柔肝颗粒口服。观察周期为24周,若用药12周后患者肝/脾CT比值≥1.0,已达到临床研究终点,可出组。观察患者肝/脾CT比值、中医证候积分、血清学指标以及其他安全性指标的
学位
随着不可再生能源不断消耗,以及全球变暖的环境问题不断加剧,石油动力汽车向电动汽车转型是必然趋势,实现模式转型的当务之急是发展性能出色的锂离子电池(LIBs)。目前,石墨仍是LIBs负极的主要材料,其优点在于成本低、矿藏丰富,加之结构稳定性高以及导电性能较好,但是它也存在一定的不足,比如其理论容量仅能达到372 m A h g-1,无法满足当今社会实际使用需求。在碳负极材料中,以生物质为原料制备的碳
学位
随着近年来世界范围对环保问题的日益关注,内燃机排放法规不断加严,作为有限密闭空间内燃烧的必然产物,内燃机的喷雾湿壁现象难以避免,而喷雾湿壁是产生HC、CO问题的重要源头之一。尽管已有理论认为能够通过改善燃烧室形状、组织气流运动方向来减少湿壁,并对湿壁现象加以控制、利用,但目前却鲜有关于湿壁现象后燃油和燃烧室壁面之间流固耦合等微观物理过程发展的研究成果。本文以喷雾湿壁现象为研究对象,主要研究了不同的
学位
氢原子转移(Hydrogen-Atom Transfer,HAT)涉及生命活动、化学化工、能源能量转换等过程的关键步骤。氢原子转移是甲烷活化转化、水裂解制氢研究中的热点问题。随着定向外电场(Oriented External Electric Field,OEEF)作为未来化学中的智能试剂的概念的提出,探索定向电场调控氢原子转移的微观本质成为目前化学领域的非常基础的科学问题之一。因此,本论文发挥计
学位
作为Node.js默认的Java Script语言开源软件包管理系统,截至2022年,NPM(Node Package Manager)中存在约160万个Node.js软件包。开发人员可以基于NPM完成Node.js软件包的安装、卸载、更新、查看、搜索、发布等操作。其中,NPM通过匹配搜索关键词与包标签的机制帮助开发人员查找想要使用的Node.js包,然而这种匹配机制无法覆盖到没有标签或者被标记得
学位
环境污染和能源危机使得人类社会对可再生能源的需求日益增长,大规模储能系统的研发和利用是解决不可再生能源的关键。锂离子电池(Lithium ion battery,LIBs)因具有较高的能量密度和可靠的循环性能,在过去的三十年间得到了蓬勃的发展,目前已成功应用于便携式电子设备、电动工具、新能源汽车等。然而,地壳中锂资源储量有限且分布不均匀,为此造成的锂离子电池价格的提升,大大限制了其在大规模储能系统
学位
基于分子间作用力构筑的超分子组装体具有构筑基元种类繁多和连接模式丰富等特点,可用于发展具有不同功能特性的超分子材料。作为一类特殊的超分子组装体,螺旋超分子组装体具有不对称的组装结构,从而在立体选择性催化和生物应用等领域受到广泛关注。如何选择合适的构筑基元和作用力来实现具有不同结构和功能特性的螺旋超分子组装体的制备并进一步实现对螺旋结构的调控一直是超分子化学领域的重要研究内容之一。以不对称性为重要特
学位
中立帮助行为是偶然与犯罪结合,客观上对犯罪实行行为起到帮助作用或者促进犯罪结果发生,外观上中立、无害的行为。中立帮助行为的行为人在主观上通常没有非法目的,其所实施的行为有着独立的社会意义,是我们日常生活的重要组成部分,对社会的有序运转和正常发展起着重要作用。中立帮助行为不同于一般帮助行为,其中立性、日常性、加功作用的偶然性等决定了并非所有的中立帮助行为都成立帮助犯,必须对中立帮助行为的处罚加以限制
学位
胞显微图像分割是显微图像分析的关键步骤,良好的细胞显微图像分割结果可以提高目标检测、信息分析等后续显微图像处理任务的准确度,帮助专家进行更精确的分析。以往细胞图像分割工作以人工为主,这不仅浪费人力物力,同时专家的专业程度以及疲劳程度也会影响识别的准确度,无法稳定地提供高质量的分割结果。同时,细胞显微图像有着细胞尺寸变化大、细胞形状不规则、细胞边界不明显及噪点较强等特点,这些特点进一步提高了人工识别
学位
智能手机已成为人们生活中最普遍的设备,正在改变着我们生活和感知的方式,得益于物联网技术的飞速发展,移动群智感知作为一种新兴的数据感知的范例正在逐渐兴起。移动群智感知是结合了众包思想和移动智能设备感知能力的一种新的数据获取方式,参与群智感知活动的用户利用所持有的智能设备通过无处不在的无线网络形成了灵活的传感网络,能够为有大规模数据需求的团体或组织提供可靠的数据服务。与传统的固定部署感知模式相比,移动
学位