基于强化学习的多机器人协作机制研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:luke_kai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人技术的发展使机器人的能力不断提高,机器人应用领域和范围不断扩大。从自动化的装配工作到深海探测乃至火星探测等任务都有机器人的身影。对于有些任务来说,单个机器人的能力是有限的,因此必须把多个机器人组织起来才能完成特定的任务。对于由大量自主机器人组成的群体,如果采用由设计者提供合适的控制参数使之形成期望的协作行为,那是非常困难的。因此,整个机器人群体及群体中的每个机器人都必须具有学习能力,从而优化系统性能,适应环境变化。 强化学习是近几十年来迅速发展起来的一类机器学习算法。强化学习不需要有先验知识,而是通过与环境的不断交互获得知识,改进行为策略,具有自学习的能力。强化学习由于自身特点,在自主机器人研究领域中受到了国内外越来越多的重视。 基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此不能把强化学习直接用于多智能体的协作学习问题。本文提出了多智能体协作的分布式两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实 摘要现,第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略。最后用3个智能体协作抬起圆形物体的实验来验证该方法,实验结果表明所提出方法比集中式强化学习方法更好, 在基于强化学习的多智能体环境下,评价一个智能体行为的效果和其他智能体的行为是密切相关的,如果每个智能体都能够通过预测其他智能体的行为再来采取自己的行为,则必将大大促进整个系统的协作。在传统强化学习方式中引入组合动作的基础上,本文提出了一种基于行为预测的多智能体强化学习方法,研究了对其他智能体行为进行预测的几种可行方法。实验结果表明,引入组合动作的传统强化学习方法是收敛的,行为预测方法能有效促进协作。
其他文献
Web应用的快速发展给Web开发和测试提出了更高的要求.建立模型是测试的第一步.本文在现有的Web应用测试模型的基础上进行改进,给出了一个较为完整的Web应用测试模型,设计并部
虚拟化的自身安全问题与虚拟化技术的快速发展如影随形。虚拟机上磁盘数据的安全关乎整个虚拟系统能否正常运行。在实践和理论上,虚拟机和物理机器有着无法忽视的差别,一些传统
信息学的发展,给生命科学带来新的机遇和挑战,产生了多学科交叉的生物信息学。从功能上,而非从细胞或有机体各个部分的特性上进行细胞的模拟和分析,是后基因组时代的研究热点。本
论文首先简单介绍了VPN的概念和应用,并简单分析了国内外产品和目前IPSec VPN技术发展情况和技术难点,然后深入分析了IKE协议,包括IKE协议的组成、IKE协商的过程和IKE消息的
Web已经成为获取信息的最重要手段之一。海量的网页在为人们提供包罗万象、无比丰富的信息资源同时,也向人们提出了如何快速地从信息海洋中获取所需信息的挑战。Web文本挖掘
随着嵌入式工业的不断成熟与发展,在线监测与故障诊断智能化仪器的开发已经成为了嵌入式工业的一个重要的应用领域。实时嵌入式工业监控系统作为嵌入式系统的一个分支,除了具
随着多媒体技术和网络应用技术的不断发展,人们可以通过网络方便地传播和交流数字图像产品,因而对数字图像在质量,大小和应用方面提出了更高的要求,希望能够根据实际的需要,
Web服务改变了传统的web应用方式,使web正在从一个信息存贮者和提供者变成服务提供者:通过标准的接口、完善的服务描述,以最佳方式帮助web用户完成特定目标。Web服务的两个关
在对大规模科学数据进行处理时,往往会因为其具有规模大、特征复杂的特点,使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此科学数据挖掘势在必行。本项目主要研
近年来,随着计算机芯片技术的不断改进,中央处理器(CPU)的速度和主存速度之间的差距逐渐扩大,系统对主存的存取访问成为新的瓶颈。Cache是一种容量非常小、但速度非常快的静