基于MAS的多机器人系统高层协作机器学习机制研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：soboy1478

【摘要】

：

由于多机器人系统具有更广泛的任务领域、更高的效率、容错性、鲁棒性、更低的经济成本等诸多显著特性,近年来逐渐成为机器人领域的研究热点。其中,协调协作的实现是多机器人

【作者】

：

张红卫

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2008年期

【关键词】

：

多机器人系统学习机制遗传算法机器人足球

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于多机器人系统具有更广泛的任务领域、更高的效率、容错性、鲁棒性、更低的经济成本等诸多显著特性,近年来逐渐成为机器人领域的研究热点。其中,协调协作的实现是多机器人系统研究的核心问题。人工智能领域的智能体和多智能体理论(Multiple Agent System,MAS)对多机器人学的研究产生了深刻影响,利用智能体和MASN论研究多机器人系统的相关问题已日益成为趋势。多智能体协作是指多个智能体通过协调各自行为,合作完成共同目标。目前实现多智能体协作比较先进的方法是神经网络、强化学习、遗传算法等几种机器学习算法相结合,使机器人智能体产生能适应环境并完成目标任务的动作行为。机器人足球Robocup是一个典型的多智能体系统问题,是近此年来多机器人系统研究最吸引人的测试平台。由于机器人足球提供了比其它平台复杂得多的环境,因此,一般认为能够在机器人足球环境中运用的结构和算法,在大部分情况下足以完成其它平台提出的任务。本文主要研究在机器人足球仿真平台Robocup仿真组上综合利用几种机器学习算法获取多智能体系统高层协作策略问题。主要研究工作包括： (1)将结合CMAC神经网络泛化的Sarsa(λ)强化学习算法应用到Robocuo的子任务Keepaway平台,得到了较其他非学习方法更好的效果； (2)Keepaway平台是标准的机器学习算法比较平台。在标准平台上比较了Sarsa(λ)和Q(λ)算法,实验结果表明Sarsa学习比Q学习更适合大规模连续空间的任务； (3)为了提升强化学习算法在多智能体系统中的最终学习效果,根据Keepaway平台总是以失败告终的特点,受与之有相同特点的的杆平衡系统所采用强化函数的启发,重新设计了一种新的惩罚式的强化函数。仿真结果表明,新设计的强化函数有效提高了强化学习算法在Keepaway平台的性能表现； (4)强化学习应用于多智能体系统有收敛速度很慢的缺点。通过调整同时学习的智能体个数分别进行仿真实验,确定了同时学习的智能体数量相对于任务的复杂度才是影响多智能体系统收敛速度的关键因素； (5)提出一种自适应强化学习算法。将可靠度概念引入强化学习算法,提出一种基于可靠度指数的动作选择策略,算法中的动作选择策略参数依据对值函数估计的可靠度动态改变以适应学习的发展进程,从而使算法可以适时收敛。

其他文献

复Monge-Ampère方程的几类边值问题

复Monge-Ampère方程涉及多复变、微分几何以及完全非线性偏微分方程等重要研究领域。关于该类方程的研究问题源于多重位势理论、微分几何中的Calabi猜想和物理学等。经

学位

复Monge-Ampère方程非线性偏微分方程边值问题

基于互相关的热噪声测温法研究

在工业领域，温度、压力、流量是最常见的三大被监测的物理参数，其中最广泛的还是温度量的测量，随着电子技术、计算机技术的飞速发展，对现场温度的测量也由过去的刻度温度计、指针

学位

温度测量智能温度计温度测试仪器智能温度测量系统

基于DM642的网络视频加密系统研究与实现

随着网络技术的飞速发展，多媒体信息逐渐成为人们交流的重要手段。随之带来的视频点播、网络电视、在线学习与培训等在各个领域中有了越来越广泛的应用。因此，如何采用更便捷的

学位

网络视频网络电视视频点播身份认证混沌序列混沌加密视频图像视频加密

基石油长输管道SCADA系统设计与研究

大港石化—济南—枣庄成品油管道(港枣线)SCADA系统是国内最新投产的技术含量较高的长输管道系统，是缓解华东地区石油供应紧张局面的一条重要的内陆成品油长输管道系统。通过

学位

石油管道长输管道SCADA系统系统设计遗传算法PID控制

新型高压直流输电系统中频率控制问题研究

新型高压直流输电技术是指基于电压源变换器的高压直流输电技术(Voltage Source Converter based High Voltage Direct Current,VSC-HVDC)。变换器采用IGBT等全控型器件,使VS

学位

电力系统高压直流输电频率控制电压源变换器

基于策略的Web服务安全模型与架构研究

本文的研究内容包括两个主要部分。 (1)构建基于策略的Web服务安全架构。本文构建了可以适应策略动态变更、部署的基础架构。在架构当中,策略辅助服务实现策略查询和下载,

学位

Web服务安全策略安全架构验证策略

分段离散时间线性系统的控制研究

本文主要利用分段二次Lyapunov函数方法对分段离散时间线性系统的控制问题进行分析,研究了分段离散时间线性系统的稳定性、状态反馈镇定和输出反馈镇定问题,取得了一些新的结

学位

分段离散时间线性系统稳定性状态反馈输出反馈不确定性

双目显微立体视觉中匹配技术的研究

显微立体视觉是机器视觉的一个重要分支,是微操作系统中的关键部分,也是提高定位精度的一种关键手段。其中,立体匹配环节是立体视觉研究中最关键也是最难的一步。本课题在调

学位

显微立体视觉摄像机标定图像预处理SIFT立体匹配

基于Web技术的网络管理——CDC的移植

目前，CDC（Connected Device Configuration）的移植是一大热点，把CDC移植到各种平台有着很有价值的应用。本文作者主要研究了把CDC移植到Win32平台的一些解决办法。把CDC移植到Win

学位

网络管理Web技术CDC移植

基于ARM系统的电动汽车电池监控系统研究

在当前世界汽车工业面临能源危机和环境污染等问题的挑战下,电动汽车以其零排放、低噪声等优点,获得了高速发展。但当前电动汽车普遍存在的续航里程短、电池寿命低、维护成本

学位

电动汽车电池管理系统磷酸铁锂电池电池剩余容量CAN总线

基于MAS的多机器人系统高层协作机器学习机制研究

与本文相关的学术论文