利用聚类分析法改进的多Agent协作强化学习方法

来源 :计算机测量与控制 | 被引量 : 0次 | 上传用户：n62315942

【摘要】

：

针对多agent系统强化学习中，状态空间和动作空间随着agent个数的增加成指数倍增长，进而导致维数灾难、学习速度慢和收敛性差的问题，提出了一种新型的混合强化学习方法，用于改进传

【作者】

：

张媛张广明袁宇浩

【机构】

：

南京工业大学自动化与电气工程学院

【出处】

：

计算机测量与控制

【发表日期】

：

2010年4期

【关键词】

：

多AGENT协作强化学习聚类分析 Friend-or-Foe Q-学习 multi-agent cooperation reinforcement lea

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对多agent系统强化学习中，状态空间和动作空间随着agent个数的增加成指数倍增长，进而导致维数灾难、学习速度慢和收敛性差的问题，提出了一种新型的混合强化学习方法，用于改进传统的多agent协作强化学习；该算法基于Friend—or—Foe Q-学习，事先采用聚类分析法对状态空间和动作空间进行预处理，降低空间维数后再进行强化学习，这就避免了同等状态环境下的重复劳动和对动作集的盲目搜索，理论上大大提高了agent的学习速度和算法的收敛性；文章首先进行改进算法的思想概述，然后给出了改进算法的学习框架和算法

其他文献

飞航导弹自动驾驶仪系统控制方案研究

为了克服飞航导弹运动过程中的非线性、时变性和不确定性对自动驾驶仪系统性能的不良影响，进一步提高导弹的飞行质量，对自动驾驶仪系统及其采用的控制方案进行了研究；首先对系统

期刊

飞航导弹自动驾驶仪系统控制方案应用aerodynamics missile autopilot system control method app

主要钢材国内市场价格（2003年3月）

期刊

中国钢材市场价格2003年3月

嵌入式网络管理平台的研究

通用网络管理平台功能强大，需要占用较多的系统资源，不适合嵌入式系统软件的开发；采用模块化，高内聚，低耦合，分层的软件设计思想，利用多线程技术，共享内存技术，网络通信技术设计并实现

期刊

嵌入式网络管理平台标签队列模块化embedded network management platform tagged queue modulariz

基于1553B总线的某测试系统中远程测试模块设计

采用1553B总线技术实现电气系统的信息一体化设计已被越来越多的领域运用;测试系统作为某导弹电气系统的重要组成部分,在以往运用中暴露出一些难以克服的缺点;文事首先分析了传统运用产生缺点的原因,阐述了采用1553B总线作为公共通道的某弹上测试系统的设计思想,并给出了具体的测试系统结构;具体介绍了作为远程终端(RT)的测试模块的功能及硬件组成,给出了其部分软件设计;设计的由多个测试模块组成的测试系统在

期刊

1553B总线控制器远程终端HI-61101553B bus controller remote terminal HI-6110

WLB400型涡轮流量计双参数补偿器的研制

由于大亚湾核电站涡轮流量计双参数补偿器FH400已经没有国外备件，也无法从国外购买到相同功能的设备，重新研制相同功能的涡轮流量计双参数补偿器就显得迫在眉睫；详细介绍了广东

期刊

涡轮流量计双参数补偿器C8051F060A/D转换器two parametres compensator of turbine flowmeter C8

国家税务总局关于外国投资者并购境内企业股权有关税收问题的通知：2003年5月28日，国税发[2003]60号

期刊

外国投资者企业并购境内企业中国税收征管

2003年5月中旬部分地区化肥市场批发参考价

期刊

2003年5月中国化肥市场批发参考价