基于共识主动性的多智能体联合学习算法及其应用研究

被引量 : 0次 | 上传用户:cox_726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着无线通信技术的快速发展以及人工智能技术的迅猛兴起,智能体的概念逐渐出现在现代生活和先进的生产活动当中。智能体是指具有感知、学习、决策和行动等基本能力的独立工作单元,能够依据周围环境中的感知信息进行自主的学习和决策,并根据决策结果采取相应的行动。由多个智能体以特定的形式耦合在一起构成的系统称为多智能体系统,高效的多智能体系统可以弥补单个智能体在感知、学习、决策和行动等方面的局限性,从而提升完成目标任务的效果和效率。本文的主要研究目的是探究有效的群体协作机制的构建方法,研究内容包括群体智能、强化学习、多智能体强化学习以及联邦学习。在研究方法上,本文分别从群体智能和强化学习两个不同的领域出发,探究两者在多智能体系统中结合的可行性和有效性。首先,在群体协作算法方面,本文以朴素的共识主动性原理为基础,结合有关星形胶质细胞在神经传递过程中新的作用机理的研究和发现,提出了一种脑启发的共识主动性协作算法。本文发现朴素的共识主动性作用原理和神经突触借助于星形胶质细胞的动态特性进行相互协作的过程之间存在许多相似之处。因此,本文对神经突触之间的这种影响过程进行了数学分析和建模,同时将这种影响定义为智能体间的横向调节作用,并引入到所提出的协作算法中。通过最终的仿真实验过程,本文分别在两个不同的仿真场景中验证了脑启发的共识主动性协作算法的优越性。其次,为了引入单个智能体的学习和进化能力从而进一步提升群体协作水平,本文将上述基于共识主动性的群体协作算法和多智能体强化学习进行了结合,提出了一种基于共识主动性的非依赖性强化学习算法。在该算法中,每个智能体可以通过独立的强化学习过程来改进自身的行动策略,同时通过共识主动性机制来协作完成目标任务。与此同时,为了在协作过程中减少多个智能体的行为可能产生的冲突和矛盾,本文提出了一种基于强化学习的冲突避免机制,同时针对智能体的决策模型以及训练方法进行了相应设计,目的是保证智能群体可以获得较大的全局收益。此外,为了提升算法的可扩展性,本文还利用参数共享技术提出了一种联邦训练算法,目的是同步地快速提升多个智能体模型的训练效果。通过最终的仿真实验过程,本文验证了基于共识主动性的非依赖性强化学习算法的可行性和优越性。进一步,为了分析和优化多智能体强化学习系统在联邦学习中的模型训练效果,本文借助与随机梯度下降过程有关的分析方法,推导出了训练模型在联邦学习中异步周期平均方法下的理论误差收敛上界。进一步,为了在模型训练阶段平衡系统的通信和计算开销以及模型的收敛性能,本文分别提出了基于衰减方法和基于共识方法的优化方案,并给出了模型在两种优化方案下的理论误差收敛上界。通过理论分析和仿真实验过程,本文分别验证了提出的优化方案对模型的收敛性能以及系统效用值的提升效果。最后,为了分析学习模型在训练阶段采用模型参数混合方法对策略性能的影响,本文从一般性的模型参数混合方法出发,利用与信任域有关的分析方法,探究了参数混合方法中混合度量对策略性能的影响。进一步,为了保证参数混合方法对模型的策略提升效果,本文以共识主动性的概念为核心,提出了一种基于智能体模型参数的、可信任群体策略协作算法。本文分别从理论分析和仿真实验两个方面验证了该算法的优越性,在多智能体强化学习的训练阶段,该算法可以进一步提升联邦学习和完全分布式训练算法的收敛性能。
其他文献
联邦学习技术能够在不需要边缘端上传原始样本的条件下,协同边缘端与中心端完成模型训练。该技术保障了边缘端的数据隐私,并降低了海量样本上传带来的时延。然而联邦学习的鲁棒性问题给这项技术的应用带来了新的挑战。鲁棒性问题产生于训练的模型汇聚和样本收集过程,且由汇聚结果和样本信息的不准确所导致的。该问题对联邦学习造成难以忽略的影响,包括降低训练结果的性能和减小模型训练的速度等。因此如何解决联邦学习中的鲁棒性
新世纪以来,世界各国的课程改革都以核心素养的培育为目标,进入了素养时代。传统的基于"课时""知识点"的教学设计难以匹配新的目标体系,素养目标需要与之相匹配的单元设计。"单元"不是新词,但时代赋予它新的内涵。课程视角、学习立场下的"单元"是指,依据统摄中心,按学习的逻辑组织起来的结构化的学习单位,是实现素养目标的一种微型课程计划。单元设计在国际上主要包括教育技术、建构主义以及将二者相整合的三种思路,
期刊
检索和整理2018—2022年中国知网教育信息化2.0主题核心期刊文献,采用文献计量法,运用WPS Office绘图工具和Cite Space软件,对文献发表的年份、数量、期刊以及文献的重要关键词等信息开展可视化分析研究。研究结果有助于了解国内学者对教育信息化2.0的研究方向,以期为关注该主题的研究者提供一些启示。
针对北方某缺水城市排水系统存在的污水溢流、雨天污水厂进水浓度波动等现状,分析系统可能存在的河水入渗、雨污分流改造不彻底、市政雨污混错接等问题。结合水质水量监测与现场调查等手段、兼顾旱天和雨天开展分析,以水质水量的异常变化为主要依据,从下游到上游追溯、从干管到支管排查,对问题进行定位。结果表明,城区六大污水系统中,污水系统Ⅰ、Ⅳ主要受河水入渗问题影响,污水系统Ⅱ、Ⅲ受雨污分流改造不彻底、市政雨污混错
为探究电气工程中电气自动化技术的应用效果,提出用于水利工程电气接线故障控制的系统,以此探究出电气自动化技术在电气工程中的应用。为更好体现电气自动化技术在系统中的应用效果,将以灰色理论为基础构建故障监控系统模型,验证故障检测的数据的检测精准性。结果表明:基于电气自动化技术设计的水利工程电气接线故障控制系统具有较高故障数据识别能力,识别精度可达95%,证明基于电气自动化技术设计的故障检测系统具有良好的
从符号学视域审视学生社团的意识形态安全工作,将高校学生社团意识形态安全工作置换为一种主流意义秩序的维系与巩固。从学生个体的意义探寻、社团话语传播、信念固定的运行逻辑和内在规律来辨析当前的高校学生社团意识形态工作,以明晰主流意识形态话语秩序维系的现实困境,从鼓励真相范围内的有益探究、加强议程设置、发挥“意见领袖”导向作用、建立意识形态“把关人”制度四个方面提出了维系学生社团意识形态安全的现实路径,为
随着社会的发展,包括酒文化在内的“中国文化走出去”这样一个战略也不再只是一句口号,而是逐渐体现在中国优秀文学作品的外译之中。作为中国的文学瑰宝,《三国演义》蕴含着丰富的中国特色文化,详尽地反映三国时期的酒文化。书中有三百多处提到“酒”,塑造的1200多名人物几乎人人饮酒,并且还有许多脍炙人口的饮酒的场景与饮酒典故,由此可见,酒文化在《三国演义》中的位置是不容忽视的。然而,在众多《三国演义》的英译研
联邦学习为解决在机器学习落地过程中遇到的数据孤岛难题,以不泄露数据拥有者的原始数据的方式,实现协同训练。然而,联邦学习引入的参数交换过程缺乏形式化的保证,为此,差分隐私方法被用来进一步保护数据的安全。从“数据拥有者之间”、“数据拥有者与服务提供者”和“数据拥有者与模型查询者”关系的角度出发,联邦学习中的差分隐私存在准确率有偏和信任级别多样的问题,联邦学习中以推荐系统为代表的应用存在意图隐私保护和遗
为解决基于中国人数据集的参数化人体模型重建问题,本文首先采集了152名中国成年女性净体样本,并对其进行头发部位去除、泊松重建、降采样和脚底平面切削。然后采用“粗—精”两步配准策略,先基于BPS对点云进行高效学习,将SMPL模型网格点快速初始配置至扫描网格点附近;再采用基于ICP的非刚性网格配准算法进行精配准,只优化顶点位移D分量,生成精准匹配的SMPLD模型。配准完成后,比较其和LoopReg配准