一种多agent协作的强化学习方法

来源 :中国人工智能学会第10届全国学术年会 | 被引量 : 0次 | 上传用户:hefner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究多agent环境下的学习行为对于系统的适应性是至关重要的。强化学习技术通过将学习过程建模成马氏决策过程,已经解决了单个agent在静态环境下的最优行为策略求解问题。但是多agent环境与生俱米就是非静态的,每个agent的学习行为会由于其他agent同样存在学习行为而受到影响。本文针对一类追求系统得益最火化的协作团队的学习过程,提出了一种多agent协作的强化学习方法。团队中的每个agent通过观察协作相识者的历史行为,预测其行为策略,进而得出最优的联合行为策略。
其他文献
知网是一个大规模语义知识库。它的字典库和义原库蕴藏了丰富的语义信息。本文利用知网的三类语义关系:上下位关系、静与动的对应关系、动态相互感应关系,对最基本的动词名词之
将基准作为判断操作的必备条件(或参量),本文提出了最简判断和初等判断的定性映射(Qualitative Mapping,QM)τp(x,S)模型,并指出集合论中的特征函数、(简单)医疗诊断、数据库中
C4.5具有处理不完整数据、连续属性等能力。Quinlan通过试验对比了多种方法处理不完整数据的有效性,并把最有效的方法应用到C4.5中,使C4.5具有较好的处理不完整数据的能力。本
本文在总结了几种多变量决策树的挖掘方法后提出了一种挖掘多变量决策树的新方法。这种方法利用一些启发式信息将属性合组合起来,作为当前结点的分类属性,得到了与C4.5算法相比
将SOM作为海量数据挖掘中的通用数据压缩算法,实现了对数据的有效压缩,使经典数据挖掘算法能够应用于海量数据挖掘领域。分析了这一方法的基本思想,介绍了处理过程,并与类似算法
Markov链模型是一种较新的异常检测分析手段,本文使用了两种方法:单步Markov链计算序列支持度、多步Markov链方法,比较全面的研究了Markov链模型在异常检测上的应用。另外,本文通
会议
本文对当前强化学习的研究现状进行了综述。首先介绍强化学习的原理、结构以及主要算法;其次介绍目前强化学习中的不完全感知、多Agent强化学习及连续状态空间等几个研究热点
CBR是人工智能的传统研究领域,随着Internet规模的急剧扩大,CBR系统需要基于Web框架,案例的存储形式、相应的组织结构,及其检索推理方法都需要满足网络要求。本文基于语义Web技术
会议
本文提出了一种新的基于视觉原理和WEBER定律的径向基函数(RBF)回归建模方法。和传统的RBF回归建模方法相比,它不但考虑丫训练样本的数据结构,还充分利用了人眼很强的目标识别
指纹特征识别以它本身具有的唯一性和不变性,成为生物特征识别中一个重要研究方向。奇异点的准确、可靠提取对自动指纹识别系统有很重要的意义。本文中提出了一种利用点方向和
会议