利用聚类分析法改进的多Agent协作强化学习方法

来源 :计算机测量与控制 | 被引量 : 0次 | 上传用户:n62315942
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多agent系统强化学习中,状态空间和动作空间随着agent个数的增加成指数倍增长,进而导致维数灾难、学习速度慢和收敛性差的问题,提出了一种新型的混合强化学习方法,用于改进传统的多agent协作强化学习;该算法基于Friend—or—Foe Q-学习,事先采用聚类分析法对状态空间和动作空间进行预处理,降低空间维数后再进行强化学习,这就避免了同等状态环境下的重复劳动和对动作集的盲目搜索,理论上大大提高了agent的学习速度和算法的收敛性;文章首先进行改进算法的思想概述,然后给出了改进算法的学习框架和算法
其他文献
为了克服飞航导弹运动过程中的非线性、时变性和不确定性对自动驾驶仪系统性能的不良影响,进一步提高导弹的飞行质量,对自动驾驶仪系统及其采用的控制方案进行了研究;首先对系统
通用网络管理平台功能强大,需要占用较多的系统资源,不适合嵌入式系统软件的开发;采用模块化,高内聚,低耦合,分层的软件设计思想,利用多线程技术,共享内存技术,网络通信技术设计并实现
采用1553B总线技术实现电气系统的信息一体化设计已被越来越多的领域运用;测试系统作为某导弹电气系统的重要组成部分,在以往运用中暴露出一些难以克服的缺点;文事首先分析了传统运用产生缺点的原因,阐述了采用1553B总线作为公共通道的某弹上测试系统的设计思想,并给出了具体的测试系统结构;具体介绍了作为远程终端(RT)的测试模块的功能及硬件组成,给出了其部分软件设计;设计的由多个测试模块组成的测试系统在
由于大亚湾核电站涡轮流量计双参数补偿器FH400已经没有国外备件,也无法从国外购买到相同功能的设备,重新研制相同功能的涡轮流量计双参数补偿器就显得迫在眉睫;详细介绍了广东
介绍了一种基于Flash的高速数据记录器的实现方案;采用了双片选、交替双平面编程技术,并对视频数据进行总线拓宽,采用双口RAM存取无效块地址的方式,从而整体提高了存储的速度,突破
介绍了一种基于PLC的锅炉SCADA系统设计与应用,针对工业锅炉的特点,给出了相应的控制策略;该系统由上位机和下位机两大部分组成,上位机与下位机通过现场总线网络连接,而且结合现场
以K9F1208UOM为例,介绍。TNANDFLASH的结构及原理并实现了一套基于ARM9处理器(S3C2410)的嵌入式Linux系统平台;加电后系统启动耗时过长(约为60s),不能满足系统设计要求;通过分析嵌入