多智能体强化学习方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：lijie6857272

【摘要】

：

多智能体系统日益成为人工智能领域的研究热点。多智能体技术具有自主性、分布性、协调性，并具有自组织能力、学习能力和推理能力。采用多智能体系统解决实际应用问题，具有很强

【作者】

：

李嘉

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2007年期

【关键词】

：

多智能体强化学习 RoboCup 人工智能机器人足球

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多智能体系统日益成为人工智能领域的研究热点。多智能体技术具有自主性、分布性、协调性，并具有自组织能力、学习能力和推理能力。采用多智能体系统解决实际应用问题，具有很强的鲁棒性和可靠性，并具有较高的问题求解效率。机器人足球是一个多智能体系统的典型问题，又是研究分布式人工智能的理想平台。其中的RoboCup 2D仿真由于仿真环境与人类足球比赛的环境相似，比赛队员仿真模型与实际队员也很接近，实现了机器人比赛中由于机器人硬件的不足而放弃的规则，故其对于分布式人工智能理论的研究具有重要意义。本文着重对多智能体的强化学习方法进行分析与研究，主要研究工作包括： (1)在RoboCup控球情节基础上，将其映射于强化学习框架，设置强化学习的条件和球员的策略； (2)应用基于tile泛化的多智能体强化学习方法，解决函数估计方法用于强化学习的问题。该方法首先用tile方法对状态空间进行泛化，之后将强化学习的奖励信号存储在tile中作为动作选择的依据，并在RoboCup的控球情节中进行实践，得到了较好的效果； (3)应用基于BP网络的多智能体强化学习方法，将BP网络容入智能体结构，用于状态泛化和智能体交换策略方面的研究。该方法利用强化学习方法的奖励信号作为BP网络的期望输出训练网络，并且利用BP网络的实际输出作为动作选择的依据。为提高BP网络在实时训练中收敛的快速性，使用了Levenberg-Marquardt优化方法对BP算法进行优化。该方法在RoboCup控球情节中得到了较好的效果。

其他文献

信息集成中异构冲突消解技术的研究与实现

随着信息技术,特别是Internet技术的发展,各行各业的信息化建设都有了突飞猛进的发展。信息化建设越来越深入人心,人们也有了越来越高的要求。目前,一个普遍存在的问题就是信

学位

信息集成异构数据库复制异构冲突模式映射

安全系统开发创新消化的心理及行为研究

当今社会电子商务和网络通信的快速发展，使人们对软件产品和信息安全服务的要求越来越高。安全系统开发(Security System Development，SSD)为解决此类问题提供了一种新方法。SS

学位

安全系统开发创新消化心理因素内在动机软件产品

基于XML数据库的工作流系统研究与应用

工作流技术作为对企业业务过程建模、分析、优化、管理的核心技术，它的有效使用可以及时调整企业的业务过程，规范企业的经营管理，降低企业的经营成本，增强企业的竞争力。但是，不同

学位

工作流模型工作流引擎XML数据库java

1.5kVA高频链单相并网/独立双模式光伏逆变器

在环境污染和能源危机越来越严重的背景下,探索开发可利用的新能源是大势所趋。本文主要研究了光伏发电系统中的重要部件双模式光伏逆变器。双模式光伏逆变器作为光伏发电系统与电网、用户间的关键接口,将光伏组件的电能转换成交流电供用户使用或馈入电网。本文在分析电路拓扑和控制策略的基础上,研制了一台1.5k VA高频链单相并网/独立双模式光伏逆变器。首先,本文在开篇给出了双模式光伏逆变器的研究现状和发展趋势。通

学位

光伏发电系统双模式逆变器平滑切换DSP

多变量系统的鲁棒容错控制

系统的可靠性是系统投入运行的关键，而提高系统可靠性的重要手段是使系统具有一定的容错能力，即容错控制。容错控制的目标是当系统的某些部件出现故障时，控制系统仍能维持稳定，同

学位

容错控制时滞不确定性鲁棒控制线性矩阵不等式(LMI)

视频序列中运动目标的提取与跟踪

本文主要研究静止背景下运动目标的检测和提取,运动目标阴影的检测,以及运动目标跟踪等方面的内容。在静止背景下的目标检测方面,本文介绍了帧间差法和背景差法两种算法的基

学位

背景模型RGB色彩空间HSV色彩空间梯度差分光照突变目标跟踪

基于多目标粒子群优化及聚类算法的图像分割研究

图像分割是数字图像处理技术的关键步骤之一，是图像理解以及场景分析的基础，针对图像特征做出相应的分割处理，为更高层次的图像分析奠定了良好的基础。自图像分割技术被提出以来

学位

图像分割多目标优化粒子群优化算法聚类算法

基于攻击图的Modbus网络脆弱性研究

近年来,工业控制领域出现了许多安全事件,造成了重大经济损失、人员伤亡以及社会影响。Modbus是工业上应用最广泛的通信协议之一,已经成为了事实上的工业标准。国内外专家对

学位

Modbus脆弱性PageRank攻击图贝叶斯网络

你的压力有多大

你的压力有多大　　　　我们的身体里充满了大量的、难以置信的被压制的情绪。这一事实潜在的后果是：被压制的压力能够产生生理上的反作用，最直接的是：它会把我们的身体击垮，使我们易于患病。　　除了这些被我们压制的情感压力外，我们还面临许多我们无法控制的现代压力：空气污染、传染病、食物化学添加剂、城市噪音、电磁污染和交通堵塞等等。　　适度的压力能使我们超水平发挥。它可以使我们心跳加快，呼吸加速，血压增加，加

期刊

多智能体强化学习方法研究

与本文相关的学术论文