合作型多智能体中的深度强化学习研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:fengraul
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单智能体深度强化学习(Deep Reinforcement Learning,DRL)近来取得了巨大突破,很多研究者也开始将DRL算法应用到更加具有实际应用价值的合作型多智能体中。深度强化学习虽然能给多智能体系统提供更为通用的控制方法,但多智能体系统中指数级增长的状态动作空间,会加大DRL算法的探索难度,让算法的学习速度变得非常缓慢。另外,合作型的多智能体之间能否有效地进行协调合作,也是影响系统整体性能的重要因素。因此,本文针对以上提到的两点问题,主要进行了下面几点研究:(1)针对DRL算法在大规模合作型多智能体系统中学习效率低的问题,提出了一种课程式训练方法对DRL算法进行训练。通过将目标系统分解成多个智能体数量不断增加的子系统,让算法先从难度低的子系统充分学习后,再不断往难度更高的子系统进行切换,直到最后在目标系统中收敛。其次,为了将课程式训练方法与IDQN算法相结合,在DQN网络中加入多头自注意力单元,将动态长度状态映射成固定长度的特征,并且提出了一种时间优先经验回放技术,在非平稳问题和数据的利用率之间寻找一个折衷点,以进一步提高学习的效率。实验表明,课程式训练方法能够有效地加快DRL在合作型多智能体系统中的学习速度。(2)针对感知受限情况下独立策略网络会带来的多智能体冲突问题,提出了一种协调通信策略网络的多智能体Actor-Critic算法。接着,针对策略网络中通信单元的设计,研究分析了平均信号通信单元和GRU通信单元,并提出了一种GRU加权信号通信单元。GRU加权信号通信单元利用GRU计算出每个智能体信息的重要性,再基于该重要性对这些信息进行加权求和,使智能体决策时能够关注对自身高相关的信息。实验表明,基于协调通信策略网络的改进算法有效地提高了整体的性能,并且GRU加权信号通信单元在结合课程式训练时表现出了更好的稳定性。
其他文献
大学与企业R&D合作已经成为许多企业获得先进技术的重要手段。大学已逐渐成为基础研究的主力军,是应用研究和技术创新的重要力量。强化高校研发活动以促进经济发展,要从优化研发
“一带一路”战略自2013年国家主席习近平访问东南亚提出以来,得到了国际社会高度关注。国家发展改革委、外交部、商务部联合发布了《推动共建丝绸之路经济带和21世纪海上的
<正> 《审计法》颁布一年了。一年来通过学习、宣传、贯彻实施《审计法》的实践,使我们对制定《审汁法》的必要性和重要意义,以及它在实施中所产生的威力和作用,有了进一步理
<正>研究目的:确定根管治疗后的后牙常见的缺损类型,剩余牙体组织量,分析各类型缺损髓腔固位高嵌体修复的注意要点。方法:2015年4月-2017年8月于上海交通大学医学院附属第九
会议
高校学生干部是大学生中比较优秀的群体。在当前构建和谐社会的目标下,加强高校学生干部思想政治教育就显得尤为重要。把高校学生干部的思想政治教育纳入和谐社会的视域,为高
<正>1引言近年来随着信息技术尤其是3S技术的飞速发展,遥感卫星监测森林火灾逐渐向远距离,智能化,信息化方向发展。自20世纪80年代初开始,美国、加拿大、澳大利亚等国家根据
大学毕业生就业不仅关系到大学生个人的发展,而且关系到我国和谐社会的构建。通过对上海某高校2009届在校本专科大学毕业班学班学生的抽样调查,发现毕业生在就业的知、情、意
国家财政部新修订的《会计档案管理办法(征求意见稿)》将于2015年7月1日起执行,该稿针对信息技术的广泛应用等新的形势,明确了会计档案的定义和范围、电子会计档案的管理要求
利用电泳中介微分析通过与邻菲罗啉的络合反应完成了对Fe2+与Cu2+的同时测定。在压差作用下,淌度较小的邻菲罗啉在金属离子区带之前首先进样,加高电压后,两区带电泳在磷酸缓
目的研究雷火灸结合穴位贴敷对脑出血恢复期便秘病人的护理效果,为临床提供参考依据。方法选取我院的80例脑出血恢复期便秘病人作为对象进行研究,将患者随机分为对照组和观察