一种多agent协作的强化学习方法

来源 :中国人工智能学会第10届全国学术年会 | 被引量 : 0次 | 上传用户：hefner

【摘要】

：

研究多agent环境下的学习行为对于系统的适应性是至关重要的。强化学习技术通过将学习过程建模成马氏决策过程，已经解决了单个agent在静态环境下的最优行为策略求解问题。但是

【作者】

：

王长缨;姚莉;陈文伟;

【机构】

：

国防科技大学管理科学与工程系信息与决策实验室长沙 410073

【出处】

：

中国人工智能学会第10届全国学术年会

【发表日期】

：

2003年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

研究多agent环境下的学习行为对于系统的适应性是至关重要的。强化学习技术通过将学习过程建模成马氏决策过程，已经解决了单个agent在静态环境下的最优行为策略求解问题。但是多agent环境与生俱米就是非静态的，每个agent的学习行为会由于其他agent同样存在学习行为而受到影响。本文针对一类追求系统得益最火化的协作团队的学习过程，提出了一种多agent协作的强化学习方法。团队中的每个agent通过观察协作相识者的历史行为，预测其行为策略，进而得出最优的联合行为策略。

其他文献

基于知网的动名语义搭配研究

知网是一个大规模语义知识库。它的字典库和义原库蕴藏了丰富的语义信息。本文利用知网的三类语义关系：上下位关系、静与动的对应关系、动态相互感应关系，对最基本的动词名词之

会议

知网动态相互感应关系语义知识库语义信息语义理解语义关系语义搭配对应关系动宾搭配字典库上下位主谓义原算法名词计算动词

判断与识别的定性映射模型

将基准作为判断操作的必备条件(或参量)，本文提出了最简判断和初等判断的定性映射(Qualitative Mapping，QM)τp(x,S)模型，并指出集合论中的特征函数、(简单)医疗诊断、数据库中

会议

统计模式识别定性映射特征向量法医疗诊断特征函数区间矩阵目标搜索集合论基准初等判断Mapping数据库条件模型操作参量并指

一种改进的C4.5学习算法：IC4.5

C4.5具有处理不完整数据、连续属性等能力。Quinlan通过试验对比了多种方法处理不完整数据的有效性，并把最有效的方法应用到C4.5中，使C4.5具有较好的处理不完整数据的能力。本

会议

改进不完整数据处理学习算法学习能力方法特定环境试验对比设计实现连续属性足球队有效性速度分析仿真

多变量决策树挖掘方法的研究

本文在总结了几种多变量决策树的挖掘方法后提出了一种挖掘多变量决策树的新方法。这种方法利用一些启发式信息将属性合组合起来，作为当前结点的分类属性，得到了与C4.5算法相比

会议

多变量决策树挖掘方法启发式信息分类属性分类效果新方法组合总结算法结点

基于SOM的海量数据挖掘的研究

将SOM作为海量数据挖掘中的通用数据压缩算法，实现了对数据的有效压缩，使经典数据挖掘算法能够应用于海量数据挖掘领域。分析了这一方法的基本思想，介绍了处理过程，并与类似算法

会议

SOM海量数据挖掘算法数据压缩算法基本思想处理过程经典分析方法

Markov链模型在异常检测上的应用及参数对结果的影响

Markov链模型是一种较新的异常检测分析手段，本文使用了两种方法：单步Markov链计算序列支持度、多步Markov链方法，比较全面的研究了Markov链模型在异常检测上的应用。另外，本文通

会议

强化学习综述

本文对当前强化学习的研究现状进行了综述。首先介绍强化学习的原理、结构以及主要算法；其次介绍目前强化学习中的不完全感知、多Agent强化学习及连续状态空间等几个研究热点

会议

强化学习状态空间研究现状热点问题Agent算法结构感知

基于语义Web的CBR结构研究

CBR是人工智能的传统研究领域，随着Internet规模的急剧扩大，CBR系统需要基于Web框架，案例的存储形式、相应的组织结构，及其检索推理方法都需要满足网络要求。本文基于语义Web技术

会议

基于视觉原理和WEBER定律的径向基函数回归建模

本文提出了一种新的基于视觉原理和WEBER定律的径向基函数(RBF)回归建模方法。和传统的RBF回归建模方法相比，它不但考虑丫训练样本的数据结构，还充分利用了人眼很强的目标识别

会议

视觉原理WEBER定律径向基函数建模方法回归RBF训练样本数据结构识别能力建模问题仿真试验有效性思路审视人眼目标角度

一种指纹奇异点提取的综合方法

指纹特征识别以它本身具有的唯一性和不变性，成为生物特征识别中一个重要研究方向。奇异点的准确、可靠提取对自动指纹识别系统有很重要的意义。本文中提出了一种利用点方向和

会议

一种多agent协作的强化学习方法

与本文相关的学术论文