基于MAS的多机器人系统高层协作机器学习机制研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:soboy1478
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于多机器人系统具有更广泛的任务领域、更高的效率、容错性、鲁棒性、更低的经济成本等诸多显著特性,近年来逐渐成为机器人领域的研究热点。其中,协调协作的实现是多机器人系统研究的核心问题。人工智能领域的智能体和多智能体理论(Multiple Agent System,MAS)对多机器人学的研究产生了深刻影响,利用智能体和MASN论研究多机器人系统的相关问题已日益成为趋势。多智能体协作是指多个智能体通过协调各自行为,合作完成共同目标。目前实现多智能体协作比较先进的方法是神经网络、强化学习、遗传算法等几种机器学习算法相结合,使机器人智能体产生能适应环境并完成目标任务的动作行为。 机器人足球Robocup是一个典型的多智能体系统问题,是近此年来多机器人系统研究最吸引人的测试平台。由于机器人足球提供了比其它平台复杂得多的环境,因此,一般认为能够在机器人足球环境中运用的结构和算法,在大部分情况下足以完成其它平台提出的任务。 本文主要研究在机器人足球仿真平台Robocup仿真组上综合利用几种机器学习算法获取多智能体系统高层协作策略问题。主要研究工作包括: (1)将结合CMAC神经网络泛化的Sarsa(λ)强化学习算法应用到Robocuo的子任务Keepaway平台,得到了较其他非学习方法更好的效果; (2)Keepaway平台是标准的机器学习算法比较平台。在标准平台上比较了Sarsa(λ)和Q(λ)算法,实验结果表明Sarsa学习比Q学习更适合大规模连续空间的任务; (3)为了提升强化学习算法在多智能体系统中的最终学习效果,根据Keepaway平台总是以失败告终的特点,受与之有相同特点的的杆平衡系统所采用强化函数的启发,重新设计了一种新的惩罚式的强化函数。仿真结果表明,新设计的强化函数有效提高了强化学习算法在Keepaway平台的性能表现; (4)强化学习应用于多智能体系统有收敛速度很慢的缺点。通过调整同时学习的智能体个数分别进行仿真实验,确定了同时学习的智能体数量相对于任务的复杂度才是影响多智能体系统收敛速度的关键因素; (5)提出一种自适应强化学习算法。将可靠度概念引入强化学习算法,提出一种基于可靠度指数的动作选择策略,算法中的动作选择策略参数依据对值函数估计的可靠度动态改变以适应学习的发展进程,从而使算法可以适时收敛。
其他文献
复Monge-Ampère方程涉及多复变、微分几何以及完全非线性偏微分方程等重要研究领域。关于该类方程的研究问题源于多重位势理论、微分几何中的Calabi猜想和物理学等。 经
在工业领域,温度、压力、流量是最常见的三大被监测的物理参数,其中最广泛的还是温度量的测量,随着电子技术、计算机技术的飞速发展,对现场温度的测量也由过去的刻度温度计、指针
随着网络技术的飞速发展,多媒体信息逐渐成为人们交流的重要手段。随之带来的视频点播、网络电视、在线学习与培训等在各个领域中有了越来越广泛的应用。因此,如何采用更便捷的
大港石化—济南—枣庄成品油管道(港枣线)SCADA系统是国内最新投产的技术含量较高的长输管道系统,是缓解华东地区石油供应紧张局面的一条重要的内陆成品油长输管道系统。通过
新型高压直流输电技术是指基于电压源变换器的高压直流输电技术(Voltage Source Converter based High Voltage Direct Current,VSC-HVDC)。变换器采用IGBT等全控型器件,使VS
本文的研究内容包括两个主要部分。 (1)构建基于策略的Web服务安全架构。本文构建了可以适应策略动态变更、部署的基础架构。在架构当中,策略辅助服务实现策略查询和下载,
本文主要利用分段二次Lyapunov函数方法对分段离散时间线性系统的控制问题进行分析,研究了分段离散时间线性系统的稳定性、状态反馈镇定和输出反馈镇定问题,取得了一些新的结
显微立体视觉是机器视觉的一个重要分支,是微操作系统中的关键部分,也是提高定位精度的一种关键手段。其中,立体匹配环节是立体视觉研究中最关键也是最难的一步。本课题在调
目前,CDC(Connected Device Configuration)的移植是一大热点,把CDC移植到各种平台有着很有价值的应用。本文作者主要研究了把CDC移植到Win32平台的一些解决办法。把CDC移植到Win
在当前世界汽车工业面临能源危机和环境污染等问题的挑战下,电动汽车以其零排放、低噪声等优点,获得了高速发展。但当前电动汽车普遍存在的续航里程短、电池寿命低、维护成本