多智能体强化学习方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:lijie6857272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统日益成为人工智能领域的研究热点。多智能体技术具有自主性、分布性、协调性,并具有自组织能力、学习能力和推理能力。采用多智能体系统解决实际应用问题,具有很强的鲁棒性和可靠性,并具有较高的问题求解效率。 机器人足球是一个多智能体系统的典型问题,又是研究分布式人工智能的理想平台。其中的RoboCup 2D仿真由于仿真环境与人类足球比赛的环境相似,比赛队员仿真模型与实际队员也很接近,实现了机器人比赛中由于机器人硬件的不足而放弃的规则,故其对于分布式人工智能理论的研究具有重要意义。 本文着重对多智能体的强化学习方法进行分析与研究,主要研究工作包括: (1)在RoboCup控球情节基础上,将其映射于强化学习框架,设置强化学习的条件和球员的策略; (2)应用基于tile泛化的多智能体强化学习方法,解决函数估计方法用于强化学习的问题。该方法首先用tile方法对状态空间进行泛化,之后将强化学习的奖励信号存储在tile中作为动作选择的依据,并在RoboCup的控球情节中进行实践,得到了较好的效果; (3)应用基于BP网络的多智能体强化学习方法,将BP网络容入智能体结构,用于状态泛化和智能体交换策略方面的研究。该方法利用强化学习方法的奖励信号作为BP网络的期望输出训练网络,并且利用BP网络的实际输出作为动作选择的依据。为提高BP网络在实时训练中收敛的快速性,使用了Levenberg-Marquardt优化方法对BP算法进行优化。该方法在RoboCup控球情节中得到了较好的效果。
其他文献
随着信息技术,特别是Internet技术的发展,各行各业的信息化建设都有了突飞猛进的发展。信息化建设越来越深入人心,人们也有了越来越高的要求。目前,一个普遍存在的问题就是信
当今社会电子商务和网络通信的快速发展,使人们对软件产品和信息安全服务的要求越来越高。安全系统开发(Security System Development,SSD)为解决此类问题提供了一种新方法。SS
工作流技术作为对企业业务过程建模、分析、优化、管理的核心技术,它的有效使用可以及时调整企业的业务过程,规范企业的经营管理,降低企业的经营成本,增强企业的竞争力。但是,不同
在环境污染和能源危机越来越严重的背景下,探索开发可利用的新能源是大势所趋。本文主要研究了光伏发电系统中的重要部件双模式光伏逆变器。双模式光伏逆变器作为光伏发电系统与电网、用户间的关键接口,将光伏组件的电能转换成交流电供用户使用或馈入电网。本文在分析电路拓扑和控制策略的基础上,研制了一台1.5k VA高频链单相并网/独立双模式光伏逆变器。首先,本文在开篇给出了双模式光伏逆变器的研究现状和发展趋势。通
系统的可靠性是系统投入运行的关键,而提高系统可靠性的重要手段是使系统具有一定的容错能力,即容错控制。容错控制的目标是当系统的某些部件出现故障时,控制系统仍能维持稳定,同
本文主要研究静止背景下运动目标的检测和提取,运动目标阴影的检测,以及运动目标跟踪等方面的内容。在静止背景下的目标检测方面,本文介绍了帧间差法和背景差法两种算法的基
图像分割是数字图像处理技术的关键步骤之一,是图像理解以及场景分析的基础,针对图像特征做出相应的分割处理,为更高层次的图像分析奠定了良好的基础。自图像分割技术被提出以来
近年来,工业控制领域出现了许多安全事件,造成了重大经济损失、人员伤亡以及社会影响。Modbus是工业上应用最广泛的通信协议之一,已经成为了事实上的工业标准。国内外专家对
你的压力有多大    我们的身体里充满了大量的、难以置信的被压制的情绪。这一事实潜在的后果是:被压制的压力能够产生生理上的反作用,最直接的是:它会把我们的身体击垮,使我们易于患病。  除了这些被我们压制的情感压力外,我们还面临许多我们无法控制的现代压力:空气污染、传染病、食物化学添加剂、城市噪音、电磁污染和交通堵塞等等。  适度的压力能使我们超水平发挥。它可以使我们心跳加快,呼吸加速,血压增加,加
期刊