Multi-Agent Reinforcement Learning Through Weighted Experience Sharing

来源 :中南大学 | 被引量 : 0次 | 上传用户：ganlu0416

【摘要】

：

强化学习允许通过奖励和惩罚完成agents编程，而不用指定如何实现这个目标。Multi-agent强化学习是multi-agent环境中强化学习概念的一个延伸。从一个单独的agent的观点，multi-a

【作者】

：

阿卜杜拉

【机构】

：

中南大学

【出处】

：

中南大学

【发表日期】

：

2012年期

【关键词】

：

强化学习加权经验共享 Multi-Agent学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习允许通过奖励和惩罚完成agents编程，而不用指定如何实现这个目标。Multi-agent强化学习是multi-agent环境中强化学习概念的一个延伸。从一个单独的agent的观点，multi-agent系统不同于single-agent系统最重要的因素在于环境的变化可以被其他agents决定。　　当每个agent学习，加强，并行的改变其行为，每个独立的agent面临着在一个动态的环境中学习的困难。加之该领域内在不确定因素和其他agent有意的采用不确定的方式影响该环境。因此所有multi-agent系统可以视为具有动态的环境，收敛保障，例如Bellman-style single-agent的收敛技术已经不再适用。　　在multi-agent系统领域的研究专注于有效的协调各个自治的agent来完成任务同时也达到较高的系统性能。Multi-agent协调的挑战包括单个目的控制，各个提供不完整信息的agent的局部观点，各agent私有的目的和解决程序，异步通讯，动态环境和不确定性。协商机制包括两种:第一种，团队合作机制，这种机制中各agent协调合作完成一个整体目标;第二种每个agent自私的试图完成各自的目的机制，一个极端的情况是每个agent都是对手，都试图完成各自的目标甚至影响损害其他agent。　　本文提出了一个新的基于加权经验共享的multi-agent强化学习观念。在这个新的观念中，每个agent都从其他agent的经验中获得好处然后添加到自己以知识为基础的经验中。　　通过这样的方式，我们的方法保证实现了在动态multi-agent环境中意图收敛的目的。我们同样也在尝试证明使用multi-agents允许学习进度急速收敛。因此更多的agent，更快的意图收敛。从single-agent系统到multi-agent系统的拓展已经通过Q-learning算法完成，它是由两个方法组成:独立学习和协作学习。

其他文献

因果贝叶斯网络结构学习研究

因果贝叶斯网络也被称为信念网络，是基于概率图理论的一种不确定性知识表达和推理模型。它在数据挖掘、模式识别、数据压缩、基因信息调控、图象处理、工业制造等方面都有重要

学位

因果贝叶斯网络结构学习2测试d-分离树扰动因果强度

AADL到UPPAAL的转换研究与工具集成

随着现代化的推进以及通信等技术的发展,计算机软件已广泛应用于各类安全攸关的系统中。在安全攸关实时系统的设计中,系统的复杂性不断的提升,使用传统的软件工程的方法,已经

学位

软件体系结构建模体系结构分析与设计语言转换规则时间状态机网络软件开发工具

基于CBR的机床设计系统的研究

当今机械制造行业迅猛发展，国内外以计算机辅助设计为基础的机械制造新技术层出不穷，然而我国的装备制造业水平还相对落后。主要表现在自主研发能力不高、产品开发周期长、可靠

学位

机械制造CBR理论机床设计系统三维制图计算机辅助设计

基于规则的访问控制模型研究与应用

随着Internet及其相关技术的发展,越来越多的企业通过网络向客户提供服务,因此访问控制技术成为网络安全领域一个非常重要的研究对象。传统的自主访问控制(DAC)和强制访问控

学位

Web系统安全策略规则引擎访问控制

基于无损压缩和混沌理论的非对称文本加密算法研究

随着信息时代的发展,大量的用户隐私数据在网络上传播,一些不法分子利用非法技术手段进行攻击进而窃取这些私人信息以谋私利,给大量的用户造成不同程度的精神以及财物损失。

学位

混沌理论logistic映射RSA算法无损压缩IRLE算法

基于改进的Levenberg-Marquardt算法的入侵检测系统的研究

随着当今社会信息和网络的不断发展，全球信息化已成为社会文明进步和发展的大趋势。但由于计算机网络自身具有的多样式特性、分布式特性和网络的开放性、互连性等特征，导致了计

学位

网络安全入侵检测BP神经网络Levenberg-Marquardt算法

公共自行车共享系统对城市公交网络输运性能的影响研究

迄今为止全世界已经有超过110个城市建立了公共自行车共享系统,公共自行车共享系统一般都嵌入到已有的城市公交网络中,和城市公交网络共同组成新的城市公交系统,因此,研究新

学位

城市公交网络公共自行车共享系统空间多层耦合网络短距离自行车骑行短距离步行公共自行车站点配置

基于免疫粒子群算法的混合流水车间调度问题研究

混合流水车间调度问题(Hybird Flowshop Scheduling Problem，HFSP)属于现实生产调度领域问题的一种，由此抽象出的简化模型，属于企业生产管理、控制的核心部分，在流程制造业中比较

学位

混合流水车间调度问题粒子群优化算法免疫信息处理机制动态扰动项

无线传感器网络网格分簇路由协议的研究分析

无线传感器网络作为一种新兴的网络技术因其广阔的应用前景和新颖的技术挑战在其诞生之初就吸引了众多学者的关注，并伴随着无线技术的发展逐渐成为了计算机领域内热门的研究方

学位

无线传感器网络路由协议均匀负载网格分簇容迟容断

视频数据中人体动作的分类研究——基于3D泊松方程

人体动作行为分析是最近几年来在计算机视觉领域中比较备受关注的前沿方向之一。视频中的人体动作可以被看成是由运动着的躯干和四肢通过不同运动的组合而成。本文按照人体动

学位

人体动作学习分类3D泊松方程贝叶斯分类器背景减除法视频数据

Multi-Agent Reinforcement Learning Through Weighted Experience Sharing

与本文相关的学术论文