多移动机器人运动控制策略的强化学习研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:ncwuer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多移动机器人是机器人研究的主要内容之一,路径规划、运动控制是移动机器人完成各种任务的关键。采用机器学习特别是强化学习方法实现多机器人环境中路径规划和运动控制,是近年来机器人研究的热点。本论文研究了多机器人环境中运动控制策略的强化学习,本文的研究工作主要从四个方面展开:动态环境中的建模规划、多障碍环境中的运动控制策略学习和优化、强化学习方法的改进研究、基于多机器人仿真实验平台的策略强化学习研究。 在动态环境中的机器人控制研究中,提出了一种基于模糊概念和可能性理论的环境建模方法,在此基础上进行模糊决策,有效的实现动态运动控制,获得高效的实时、避障规划效果。 在多障碍环境中的移动机器人路径规划方面,提出了人工势场法和蚁群优化算法相结合的路径规划方法,将人工势场作为先验知识,对蚁群优化算法进行初始化,和已有的蚁群路径规划算法相比,显著提高了规划速度。 在对强化学习方法的改进方面,针对传统算法在大状态空间中学习效率低的问题,提出针对模糊状态的强化学习算法(FSRL),并基于模糊状态实现离散状态空间中的多尺度学习;考察蚁群优化算法的状态相关性特点,在时间学习尺度上对传统算法进行改进,提出蚁群强化学习算法(RAL)和延迟优化学习算法(DORL);并应用于多障碍环境路径规划,和基于传统强化学习的路径规划方法相比,显著提高了规划性能。 根据实际应用时环境状态的不确定性、学习过程中策略的不确定性,在随机变量熵的概念下,提出强化学习中的决策熵,来定量度量学习过程中策略的不确定性(即策略收敛程度);提出强化学习中的状态熵,来描述观测状态信息不完整引起的不确定性;基于决策熵,提出具有自适应学习率的学习算法,通过多障碍环境路径规划仿真实验,表明自适应学习率有效的提高了学习性能。 基于TeamBots多机器人仿真实验平台,进行了多机器人目标搜索和机器人足球的策略学习实验,应用改进的自适应学习率方法成功实现多移动机器人环境中的控制策略学习,并且足球机器人仿真实验中,通过强化学习实现了机器人之间的协作分工。
其他文献
本文选取2008—2015年之间我国A股上市公司为研究对象,选用环球润灵网对上市公司作出的企业社会责任综合评分,研究企业社会责任对上市公司成长性的影响。实证研究结果表明,上
合作机器人(collaborative robot简称cobot)是一种与人在同一作业空间内直接进行物理合作的新型机器人。它继承了传统工业机器人的作业精度高、承载能力强的特点,同时发挥了操
概率与统计对现实生活中的我们不是一个陌生的概念.现实生活中概率论与统计学的确无处不在,小到衣食住行,如天气预测,彩票,保险,大到投资决策.然而我国中学生对随机性缺乏认识,在解决
由于两相流动体系广泛存在于化工、冶金、能源、环保、轻工和军工等各个工业领域,促使两相流领域的研究工作迅速发展,成为国内外给予极大关注的前沿学科。两相流系统的动力学
本文围绕混沌应用所要求的实时建模和实时控制及混沌在测量中的应用开展研究,主要研究内容包括:1.混沌建模研究;2.混沌的变结构控制研究;3.混沌的逆系统控制方法研究;4.混沌在测量
护理工作是卫生工作的重要组成部分,在维护和促进人民群众健康水平方面发挥着积极作用。随着经济的持续快速发展,人们的健康需求和卫生消费会加速增长,广大群众普遍希望得到高质
目的探讨脑梗死合并睡眠呼吸暂停综合征(SAS)患者通气功能与血脂代谢、胰岛素抵抗的相关性。方法收集在本院接受治疗的脑梗死合并SAS患者32例为A组,并选择同期单纯脑梗死患者43
<正>Wuyutai, a time-honored tea brand,celebrates its 125th anniversary this year.Since its founding in 1887, Wuyutai has been committed to its motto of "always
中国汽车产业的迅猛发展迫切需要汽车金融的支持,然而当前中国汽车金融的发展面临着一些问题。本文分析了中国汽车金融发展的五大制约因素,并提出了相关的政策建议。
目的回顾性分析经阴道超声诊断陈旧性宫外孕的临床价值。方法选取2015年9月2 0日至2016年9月20日我院收治的100例疑似陈旧性宫外孕患者为试验对象,分析其阴道超声检查结果。