大规模场景下基于加权平均场的多智能体深度强化学习研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：appconfig

【摘要】

：

【作者】

：

吴斌

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2021年01期

【关键词】

：

多智能体系统多智能体深度强化学习平均场注意力机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科技的发展,以及人工智能领域各项技术的逐渐成熟,多智能体系统已成为人工智能一个热门研究方向。多智能体系统由分布式人工智能演变而来,其研究目的是解决大规模、复杂、实时和有不确定信息的现实问题,而这类问题是单个智能体所不能解决的。多智能体深度强化学习是解决多智能体问题的重要方法,但目前的多智能体深度强化学习方法主要针对只有数个智能体的环境,而在多智能体越来越庞大的环境中,智能体的策略变得更加重要也更加困难,很多方法很难有效。本文的主要研究内容包括:（1）提出了一种基于加权平均场的深度强化学习多智能体系统协作算法。利用平均场思想,同时基于相关属性集为各个智能体行为赋予不同的权重,将智能体联合动作转变其他智能体的通过加权平均场所形成的平均动作,并作为多智能体深度强化学习中的值函数和状态函数等更新函数的参数,简化了交互的规模。本文通过仿真对抗实验展示了该协作算法的有效性。（2）一个智能体在与环境进行交互的时候对其他智能体的状态和行为进行针对性的了解是至关重要的,原先的加权平均场方法没有考虑这些动态,而是在任何时间点将所有的智能体权重考虑成相同的。所以我们采用注意力机制,构建了注意力网络,能够在训练过程中的每个时间点动态选择要关注的智能体,给予动态的权重,从而提高具有复杂交互的多智能体系统的性能。

其他文献

卷积神经网络模型压缩算法优化及应用

近几年来,卷积神经网络在计算机视觉,自然语言处理和语音识别等领域上取得了突破性的进展。尽管卷积神经网络具备强大的特征表达能力,但模型的过参数化和高计算复杂度使其在训练和推理过程中消耗大量硬件资源,让模型部署在资源受限的嵌入式设备上变得异常困难。因此,研究如何在不降低网络精度的前提下压缩神经网络模型,对于深度学习技术的普及具有重要意义。本文在现有压缩算法的基础上,对其进行优化改进并完成了以下工作:（

学位

卷积神经网络模型压缩知识蒸馏轻量化模型遥感图像分类

基于马尔科夫毯的特征选择算法研究

特征选择已经被广泛地研究和使用在机器学习和模式识别领域,因为它能够减少问题的复杂度,同时提升学习算法的预测精度。但是,传统的特征选择算法依据特征和类别变量之间的相关关系选择相关特征、去除无关特征,从而没有试图学习它们之间的因果特征。近些年,基于马尔科夫毯的特征选择已经吸引了越来越多人的关注,因为它比传统的特征选择算法具有更好的鲁棒性和可解释性。基于马尔科夫毯的特征选择旨在发现类别变量的马尔科夫毯（

学位

特征选择贝叶斯网络马尔科夫毯分类

特征选择算法及其在因果发现中的研究与应用

特征选择方法在数据分析与降维中发挥着重要的作用。目前很多特征选择方法存在着一些共性问题,如大量的参数调节、运行时间长、特征的预测效果差等,如何开发出一种适合实际环境使用、减少人为干预的高性能特征选择方法目前仍是一个挑战。另一方面,特征选择与因果发现领域的贝叶斯网络结构学习理论存在着很多重要的联系。目前大多数因果学习算法存在着时间复杂度高,精度差的缺点,此外它们在流特征环境、连续型数据与非线性与弱加

学位

特征选择因果结构学习流特征弱加性噪声非线性数据

基于LSTM和强化学习的图像隐写分析算法研究

随着数字多媒体与计算机技术的发展,隐写术能以更加难以察觉的方式将秘密信息隐藏在数字多媒体中（如文本、图像和音视频等）。隐写术的滥用不仅威胁到每个公民的隐私安全,更关系到整个国家的繁荣与稳定。为了提高隐写检测准确率,隐写分析者提出了基于卷积神经网络的高级图像自适应检查算法。这类算法通过不断学习网络模型结构中的相关参数,挖掘数据中隐含的复杂关系,提取图像中的数据特征。这不仅大大降低了对研究人员经验和精

学位

图像隐写分析长短期记忆单元卷积神经网络强化学习

动态环境下基于实例级语义信息的同时定位与建图研究

传统的基于视觉的同时定位与地图构建（Simultaneous Localization and Mapping,SLAM）技术不能获得周围环境的语义信息,无法满足机器人对自身周围场景的感知、理解和建模的需求。现有的大多数带有语义的SLAM方法要么假定周围环境是静态的,要么仅获取像素级别的语义信息,无法对环境中的每个物体进行实例级别的标识。这将导致机器人面临很多挑战,如无法完成人机交互、智能抓取、碰

学位

机器人视觉SLAM动态环境语义信息三维点云

基于阿里云IoT平台的智能空调控制系的设计与实现

随着现代信息技术的发展,万物互联的全新时代即将正式到来,基于物联网的智能家居方兴未艾。目前,大多数家用空调系统都是一对一单控制,无法远程监控空调的系统运行状态,发生故障后,售后人员只能凭大多数用户的非专业描述判断故障原因,很难快速定位并解决问题,新型智能空调已经成为传统空调系统升级换代的最佳选择。本文基于传统中央空调控制技术和物联网技术,设计了一款基于WiFi与阿里云物联网平台的智能空调控制系统。

学位

物联网智能空调控制器多联机空调组

基于机器学习的LED表面缺陷检测技术研究

随着工业4.0的发展,人们对产品质量特别是发光二极管（Light Emitting Diode,LED）表面质量的要求越来越高。在实际生产线上,LED表面缺陷检测技术是检测LED表面质量的关键环节之一,已成为近年来的研究热点。现有的研究大多适用于单光源检测环境,而在多光源检测环境中很难保证检测速度和检测准确率同时满足生产要求。本文基于多光源检测环境,研究LED表面缺陷检测技术,主要工作包括:（1）

学位

多光源图像特征融合缺陷检测支持向量机一阶全卷积目标检测

多尺度与稀疏表示相结合的光学图像融合算法研究

随着传感器技术的发展,单一传感器模式逐渐发展为多种传感器模式。然而单一的图像传感器表示能力十分有限,往往不能从场景中提取足够的信息,多源图像融合技术应运而生,提高了图像解译的性能。其中,多光谱和全色图像融合作为近年来的研究热点,在一定程度上解决了多源数据综合分析的问题,促进了图像处理技术的发展。该技术以互补的方式利用了这两种成像方法的特点,有利于更加准确、可靠、全面地获取目标或场景信息。对于多光谱

学位

图像融合多光谱图像全色图像多尺度分析稀疏表示

机器学习方法在结构可靠度分析及损伤识别中的应用研究

现代工程结构日益大型化、轻柔化,其安全服役和动力灾变问题越来越突出。结构可靠度分析和结构健康监测是保障工程结构长期服役和安全运营的两个重要研究内容:一方面,结构可能直接承受作用强度远超其设计极限的极端自然灾害,导致结构体系失效,因此有必要对结构进行动力可靠度分析;另一方面,在漫长的服役期内,结构会因环境侵蚀和材料老化等因素的影响出现功能退化,致使服役性能不断下降,因此需要利用损伤识别等手段为结构安

学位

机器学习代理模型自适应采样贝叶斯学习结构健康监测

基于Winograd算法的卷积神经网络加速器

近年来,神经网络已经应用在无人驾驶、医学、地质探测等各个领域。随着卷积神经网络的发展,从Le Net网络结构到VGG网络结构,网络越来越深,每层的规模也越来越大,随之而来的是计算量和参数量越来越大的问题。一般神经网络的训练计算由服务器端进行,再将训练好网络发送到终端进行推理计算,以满足终端的智能化需求。但该传输过程可能会造成用户一些隐私数据的泄露,缺乏安全性,同时终端也缺乏本地的自我训练调整的能力

学位

神经网络可重构FPGAWinograd

大规模场景下基于加权平均场的多智能体深度强化学习研究

与本文相关的学术论文