基于强化学习的多机器人追捕问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tzhole
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多机器人协调与协作问题是多机器人系统研究的热点之一。多机器人追捕问题是研究多智能体机器人系统中多机器人协调与协作问题的理想平台。它主要研究多个追捕者捕获运动的多个逃跑者的动态过程中通过相互间的协作与协调使追捕者间避免冲突,获利最大的最优协作追捕算法。同时它涵盖了实时视觉处理、无线通讯、实时动态路径规划、多机器人分布式协调与控制、多机器人规划与学习、机器人团队之间的竞争与合作等多学科、多领域知识。强化学习是学习如何把状态映射到动作,并且使得用数字表示的奖励信号最大的一种学习方法。将强化学习应用到多机器人追捕问题中,使追捕机器人能够主动的试探环境,在与环境交互的动态过程中获得知识,不断地提高系统自身的性能,通过积累经验明确系统当前性能与目标性能之间的距离,实施改进操作,提高系统追捕效率。本文以多个机器人追捕多个逃跑目标的过程为背景,探索多体机器人的协作机制为导向,提高多体机器人的协作效率为目的,研究了多个理性智能体在动态复杂环境下的协调与协作算法。研究主要包括如下几个方面:第一,提出了利用多机器人强化学习方法解决多机器人追捕问题的求解方案。根据多逃跑者追捕的需要,分析了协作联盟形成方法,引入关联规则数据挖掘方法进行任务分配,通过对比智能体各项属性及任务需求,针对各逃跑者建立相应的追捕联盟,基于不同状态下的奖励差异提出了一种分段式强化学习方法,利用其作为已知环境下追捕问题的模型求解追捕联盟的协作追捕策略。针对多机器人强化学习将会出现随着智能体数目增加导致的行为状态空间组合爆炸问题,利用降低多智能体系统的规模解决该问题,给出了基于任务规划多智能体强化学习方法及基于案例推理的多智能体强化学习方法,为本文研究未知环境下多机器人追捕行为策略提供了理论基础。第二,研究已知环境下多个追捕机器人形成追捕团队追捕多个逃跑者的协作追捕策略问题。首先对传统的主从式协作机制进行改进,通过对追捕区域分区减轻系统的负载,接着利用择优函数选择团队成员,形成追捕团队,然后预测逃跑目标下一时刻的位置决定追捕者的行为选择算法。通过分析上述方法的不足之处提出了一种基于关联规则数据挖掘的多机器人追捕策略算法。综合考虑与捕获逃跑目标相关的各种因素建立样本数据集,利用Apriori算法创建追捕团队,最后由于各追捕阶段追捕者与逃跑者之间的状态关系不同所获行为奖励差异,提出了一种分段式强化学习方法来求解多机器人最优协作追捕策略。第三,研究未知环境下多个追捕机器人形成追捕团队追捕多个逃跑者的最优协作追捕策略问题。首先通过有选择的循环搜索法对逃跑目标进行搜索,发现目标后,基于目标分解与分配的理论基础,通过整数规划模型求解各目标的追捕团队。接着根据任务规划的结果,让各协作团队同时分周期独立学习各自的最优行为决策,团队成员根据其他成员在此状态下将要采取的动作行为执行最佳的响应动作,多次重复对策后得到该协作团队的学习目的解。学习过程中由于不同协作团队之间的行为选择相互影响,对学习结果进行周期监督,通过变化学习率来保证学习的有效性。考虑上述方法对于追捕目标分解与分配是相对粗略的,整数规划问题实际求解过程本身也很复杂,创建追捕团队时没有考虑到追捕者之间完成捕获任务的能力互补等问题,提出一种未知环境下结合案例推理强化学习方法的多机器人协作追捕多个逃跑目标策略,创建追捕团队时充分考虑追捕者之间能力互补问题,追捕团队成员协作追捕过程中,追捕者的行为选择同时参照历史经验及实际追捕者与逃跑者所处的状态进行决策。试验结果表明,该算法能够明显提高复杂环境下多机器人协作追捕目标的效率。第四,开发了多机器人协作追捕目标仿真平台,为深入研究多机器人追捕目标问题提供了一个标准的试验平台。该仿真系统采用模块化设计,便于对新的算法进行仿真研究,并通过各种试验对本文所提方法进行了验证。
其他文献
对零件库进行了介绍,主要研究了临时数据库(TDB)的功能,提出了在FORTRAN语言联编和UG/GRIP语言映射过程中,运用组结构实现TDB的功能,其具体操作是运用链表来实现对临时几何实体的操作,即实现临时几何实体的删除、组实体的转化等操作;将符合ISO13584.31标准的FORTRAN联编程序文件,通过用C语言编写的转换接口的编译,最终生成Unigraphics系统下的GRIP语言程序
2019年5月18日,新疆生产建设兵团第五师八十九团12连的棉田里,一台拖拉机正在绿色的棉苗行间进行中耕作业,全面推行农业机械化生产,从播种的田间管理的一系列精耕细作措施,让
期刊
空间机器人及其遥操作技术是目前主要航天大国研究的重点技术之一,它对提高国家在空间领域的竞争力和安全性具有重要的意义。空间机器人遥操作对信息反馈的实时性和准确性有
能够称得上文化的元素,一定都具有特定的功能与作用,其中主要表现在引导、影响学生的态度和行为。在当下职业教育对中这种班级文化显得特别重要,先进的班级文化具有突出的积
<正> 何士光同志的《乡场上》,被评为1980年全国优秀短篇小说,得到了专家和群众的充分肯定和高度赞扬。许多报刊发表了评论文章,从人物到主题,都作了全面、深刻的评价。这里,
在今年3月份召开的广州市检察机关反贪工作会议上,强调要严格执行讯问12小时时限的规定,这给反贪侦查工作特别是讯问工作提出了更高的要求,如何提高12小时讯问的效果成为每名
办企业要有平常心,不要立太高目标,企业动作越少越好,把现有动作做得最好、最精细,才是最享受的。宁可错过100个机会决不投错1个项目。
期刊
“血糖调节”是高中《生物》选修本“人体稳态”中的一节内容,包括血糖平衡及意义,血糖平衡调节和糖尿病及其防治三部分知识。该节内容既与必修本中“人和动物体内三大营养物质
运用固有应变法研究了六个固有应变分量分别对搭接接头焊接角变形的影响.采用热弹塑性有限元法计算出搭接接头的六个固有应变分量和角变形,并以各个固有应变分量作为边界条件