基于值函数分解方法的多智能体协同策略研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:ffg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,强化学习的发展非常迅速,尤其在Alpha Go击败围棋高手李世石之后,更是引起了众多学者的关注和研究。随着研究的不断深入,强化学习被逐渐应用到复杂的多智能体协同问题上,这类研究被称为多智能体强化学习。多智能体强化学习已经使许多领域取得突破性进展,例如,军事推演、快递分拣、竞技体育、自动驾驶、推荐系统等。因此,无论是从理论价值还是工程应用的角度来看,对多智能体强化学习的研究都具有极其重要的意义。尽管多智能体强化学习已经取得了卓越的成功,但是仍然存在着智能体信息过载、初期盲目探索等一系列问题。本文以值函数分解方法为理论基础,围绕这些问题展开研究:(1)针对当前采用值函数分解方法的多智能体系统在通信时会受外界信息轰炸、初期无效探索等问题,提出一种基于注意力机制的多智能体值函数分解方法(Multi-Agent Value Function Decomposition based on Attention Mechanism,MAVAM)。通过引入注意力机制,增强智能体之间对彼此影响力的关注;并改进-贪婪策略为理性-贪婪策略,减少智能体的盲目探索,增加经验回放池的有效样本。仿真结果表明,本文所提出的算法有效降低信息过载以及训练初期的无效探索,在星际争霸多智能体挑战模拟环境中的收敛速度和最终平均胜率都达到最优。(2)针对环境中智能体数量和动作空间随时间变化而变化的问题,提出一种基于监听通知器和即兴组队的多智能体值函数分解方法(Listener-Noticer and Adhoc Team based Multi-Agent Value Function Decomposition,MALN-AT),借助监听通知器实现智能体的即兴组队。当智能体退出或“死亡”时,团队中其他智能体能够接收到监听通知器的广播,优化局部观测信息,并迅速进行调整;当新的回合开始时,曾经“死亡”的智能体也能更合理地选择当前最优动作。实验结果显示,算法在“寻找宝藏”模拟环境中准确地输出联合动作值,指导智能体在未固定环境中有效地协同工作。(3)从实际的工程应用角度出发,将多智能体协同问题具体到视频推荐系统的多场景协同优化上。结合值函数分解方法MAVAM训练出视频推荐策略模型,仿真结果表明,基于MAVAM的推荐策略在各项推荐指标上表现优异,并且有效避免子场景独立推荐形成的马太效应。(4)针对多智能体协同的视频推荐系统对真实数据的需求,基于现有的软件框架,设计并搭建出一个实时大数据平台。平台能够与真实用户进行交互,并且具备采集、传输以及处理海量用户行为数据的能力,处理后的数据可作为视频推荐系统的实时数据来源。
其他文献
目的:通过研究强心安神方对阿霉素诱导慢性心衰大鼠心功能以及NLRP3/Caspase-1焦亡通路的影响,探讨强心安神方治疗慢性心衰的作用机制,为强心安神方临床应用提供实验依据。方法:使用盐酸阿霉素复制CHF大鼠模型,空白组大鼠注射等量的生理盐水作为对照,注射剂量和次数同造模组。造模期间每日观察大鼠一般情况,给药结束后心脏超声心动图测量LVEF、LVFS;ELISA法检测大鼠血清NT-pro BNP
学位
目的:运用数据挖掘方法分析中药促进肛瘘术后创面愈合的的研究现况,对相关临床观察设计方法进行归纳,总结中药促进肛瘘术后创面愈合的组方特点,为临床实践和后续研究提供数据支撑。方法:通过收集中国知网、万方、维普等数据库中有关中药促进肛瘘术后创面愈合的随机对照临床研究,录入研究设计、中药组方的相关信息,运用Python编程语言整理数据,并用相关数据分析模块对整理的数据进行频次统计、关联分析、聚类分析及可视
学位
目的:观察维生素D2注射液治疗阴虚火旺型Graves病的临床疗效;观察四甲丸联合维生素D2注射液治疗阴虚火旺型Graves病的临床疗效。方法:将临床新诊断符合入组标准94例阴虚火旺型Graves病患者按观察组:对照组4:1的比例随机分为3组,观察1组48例、观察2组26例和对照组20例。对照组予口服甲巯咪唑等常规基础治疗及每日晒太阳30分钟以上;观察组1在对照组的基础上每半年肌注一次维生素D2注射
学位
随着我国经济实力的不断提升,广大人民群众的消费水平、消费能力也随之提高。国人已不满足基本生活需求,旅游的出行需求也在不断增加。旅游产业的兴起必定会为第三产业提供发展的机会,也正因此使得酒店行业在我国近二、三十年间有了蓬勃发展。但是,近几年受全球经济下滑、国内经济下行趋势增加,特别是新冠肺炎疫情的影响,使得国内酒店业整体经济不佳,以FL公司为例,2017年以6折的价格收购WD集团73家酒店之后,直接
期刊
水域生态系统是大气甲烷(CH4)的重要自然排放源。但是,相关研究主要集中在欧美地区,且多关注天然水体,对于农业流域水体(河流、池塘和沟渠等)则很少受到关注。农业活动是影响水体健康的关键因素,我国以水稻种植为主的农业流域是区别于欧美水体的主要特点,随着农业化肥的施用量增加,大量的外源负荷通过淋溶径流和农业灌排等方式进入水体,进而可能影响水体CH4等产生和排放。针对以上问题,本研究选取巢湖流域典型农业
学位
目的:本研究以网络药理学为基础预测了加味独活寄生合剂主要调控PI3K/AKT信号通路,用动物体内实验验证其延缓OP病理改变的疗效机制,以期为中医药“异病同治”理论指导下的“补肾活血祛痹止痛防治慢性筋骨病”的学术观点提供更进一步的理论支持,同时为临床推广应用加味独活寄生合剂提供科学的实验依据,为OP的深入研究及临床用药提供参考。方法:本课题组前期以网络药理学为基础,通过检索相关数据库获得加味独活寄生
学位
区域模式对大尺度环流的分析相比全球模式存在更大的偏差,这样的偏差会随循环同化的进行不断积累并影响预报准确度。为减少误差积累,科学家们提出了尺度混合方案,尺度混合方案既能使区域模式持续性地热启动运行,实现中小尺度信息持续建立与积累,同时也能减小循环过程中积累的预报误差。截断尺度的选择是尺度混合方案中的重要研究内容,本文根据不同气象要素的特性,提出了动力场和温湿场变量采用差异化截断尺度的混合方案,并通
学位
本文利用ERA5和NCEP/NCAR再分析资料,以及次季节到季节计划(S2S)回报数据。通过对前人工作的调研和整理,计算了17个急流指数,包括11个副热带急流指数和6个极锋急流指数,分别表示了急流的面积、强度和位置,代表了急流变化的不同方面。在此基础上,分析了急流各个方面的次季节变化特征,考察了次季节尺度急流对我国冬季气温的影响,初步探讨了急流在北半球大气中的桥梁作用。在次季节尺度,表示急流同一特
学位
二氟化硼化合物因其优异的荧光性能和良好的生物相容性在化学与生物学等领域得到广泛应用。二氟化硼化合物是典型的具有较大摩尔消光系数和高荧光量子产率的强发光化合物,其在双光子材料、发光二极管、荧光探针和光致变色材料等领域的应用在过去几十年得到飞速发展。然而,从合成方法学的角度来看,目前主要是通过2-吡啶基苯乙酮或者二酮与三氟化硼乙醚反应得到对应的目标产物,但这类反应的底物较局限以及反应的选择性较差。此外
学位
甲醛(HCHO)是挥发性有机化合物的典型代表物之一,是一种常见的室内空气污染物,长时间暴露于HCHO浓度超标的环境中会给人体产生巨大的负面影响。常温催化氧化是去除室内HCHO的有效方法之一,具有成本低、效率高、无二次污染等优点。本文MnFeOx氧化物为活性物种,合成制备了MnFeOx/TiO2和TiO2/MnFeOx两种催化剂,旨在无动力、常温条件下实现对室内低浓度气态HCHO的吸附和催化降解,研
学位