分层的局部合作Q-学习

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：xiaoxiao1946

【摘要】

：

多智能体Q-学习问题往往因为联合动作的个数指数级增长而变得无法解决。从研究分层强化学习入手，通过对强化学习中合作MAS的研究，在基于系统工作逻辑的研究基础上，提出了基于学

【作者】

：

刘亮李龙澍

【机构】

：

安徽大学计算智能与信号处理教育部重点实验室

【出处】

：

计算机工程与应用

【发表日期】

：

2009年22期

【关键词】

：

多智能体系统局部合作 Q-学习过程分层 Multi-Agent Systems（MAS） regional cooperative Q-learning

【基金项目】

：

国家自然科学基金（the National Natural Science Foundation of China under Grant No.602730431）,安徽省高校学科拔尖基人才金.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多智能体Q-学习问题往往因为联合动作的个数指数级增长而变得无法解决。从研究分层强化学习入手，通过对强化学习中合作MAS的研究，在基于系统工作逻辑的研究基础上，提出了基于学习过程分层的局部合作强化学习，通过对独立Agent强化学习的知识考察，改进多Agent系统学习的效率，进一步提高了局部合作强化学习的效能。从而解决强化学习中的状态空间的维数灾难，并通过仿真足球的2vs1防守证明了算法的有效性。

其他文献

基于支持向量机的信息系统性能评估

根据信息系统评价原则，提出了信息系统性能评价的指标体系，并对各指标进行了定量描述，后利用支持向量机（SVM）的分类算法，建立了基于SVM的性能评估模型，实现了信息系统评估的自动化。

期刊

信息系统性能评估支持向量机分类算法information systems performance evaluation support vector

变速风力发电机故障观测器的设计和应用

针对模型包含未知非线性函数的变速风力发电机故障诊断问题,采用反卷法和最小二乘支持向量机对未知非线性函数进行辨识,将辨识结果作为补偿项加入比例高阶积分观测器中,消除

期刊

变速风力发电机最小二乘支持向量机补偿项比例高阶积分故障观测器variable speed wind turbineleast squares suppo

复杂网络的分形特征及其实证研究

为了探究复杂网络蕴含的复杂性，对复杂网络的分形特征进行了讨论。根据盒计数法和重整化过程对刻画分形复杂性的重要参数——分形维数进行了分析研究，并以C.elegans线虫的新陈

期刊

复杂网络分形特征重整化分形维数complex networksfractal featurerenormalizationfractal dimensi

基于预知维修的开放式状态监测系统的实现

在“预知维修”的设备管理体制的构想下,构建了一种基于因特网、面向设备管理的开放式机械设备状态监测与故障诊断系统,该系统在建立远程专家状态监测与故障诊断体系的同时,

期刊

预知维修开放式设备管理嵌入式状态监测predictive maintenanceopenequipment administrationembedde

矿山系统诊断学的理论框架

矿山系统诊断学的研究旨在利用诊断学在方法学上的特色，为增强矿山企业的控制功能提供完整的理论和方法．本文详细论述了矿山系统诊断学的理论基础及其基本研究内容，形成了它的理

期刊

矿山企业系统诊断学理论框架人工智能mine enterpriseengineering and managementsystem diagnostic

《财经法规与会计职业道德》教学法探讨

本文探讨《财经法规与会计职业道德》的课程教学法，从近几年会计从业资格证改革的特点、难点以及改革的方向出发，全面阐述如何通过建立试题资源库、怎么改进教学方法和引导学生

期刊

《财经法规与会计职业道德》课程建设教学实践"Financial Regulations and Accounting Professional

替米沙坦片治疗原发性高血压的疗效研究

目的：分析替米沙坦片治疗原发性高血压的临床疗效。方法选取我院2013年收治的40例原发性高血压患者为研究对象，并将其随机分为对照组和试验组，每组20例。对照组采用非洛地平治疗

期刊

高血压替米沙坦治疗结果HypertensionTelmisartanTreatment outcome

甘精胰岛素联合格列美脲治疗老年2型糖尿病临床分析

目的：观察甘精胰岛素、格列美脲联合治疗老年2型糖尿病的临床疗效及安全性。方法将126例老年2型糖尿病患者随机分为观察组和对照组各63例，观察组给予甘精胰岛素与格列美脲联合

期刊

老年2型糖尿病甘精胰岛素格列美脲低血糖

非平衡二叉树多类支持向量机分类方法

提出一种新的基于非平衡二叉树的支持向量机多类别分类方法。该方法通过分析已知类别样本的先验分布知识,构造一个二叉决策树,使容易区分的类别从根节点开始逐层分割出来,以获得较高的推广能力。该方法解决了传统分类算法中所存在的不可分区域问题,在训练时只需构造N-1个SVM分类器,而测试时的判决次数小于N。将该方法应用于人脸识别实验。测试结果表明,与传统分类算法相比,该方法的平均分类时间是最少的。

期刊

支持向量机二叉树人脸识别Support Vector Machinebinary treeface recognition

人工全膝关节置换术围手术期的护理

目的探讨全膝关节置换术围手术期的护理。方法对2008年2月至2009年10月收治的全膝关节置换病人共15例进行围手术期的护理,并行分析总结。结果 15例患者均取得满意效果。结论

期刊

人工全膝关节置换围手术期护理

分层的局部合作Q-学习

与本文相关的学术论文