面向多样动态环境的强化学习机器人导航算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yueliangjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器人的使用不断向人们生活中渗透,对于机器人在复杂动态环境中导航能力的要求也不断提高。传统机器人导航算法越来越难满足这些场景的需求。由于近年来强化学习在序列决策问题上取得的惊人成果,一些学者开始使用强化学习来解决导航问题。但在不同的导航场景中,强化学习导航任务的状态空间、奖励函数、训练流程的设计还存在很多科学问题。本文根据移动机器人在真实世界的应用选择了多机器人场景和社交行人场景进行研究。在多机器人导航问题里,需要多个相同策略的机器人在完成各自导航任务时,避开其他机器人以及环境中的障碍物。本文提出了基于栅格地图的多机器人导航算法,该方法以传感器栅格地图作为机器人的状态空间。传感器栅格地图可以由不同参数的深度传感器生成,可以表示障碍物和其他机器人信息,让多机器人导航算法同时拥有处理静态障碍物和动态障碍物的能力。之后本文使用PPO算法,让多个机器人在不同的随机环境中以自我博弈的方式执行导航任务来收集数据进行训练,这种训练方式让多机器人导航算法拥有对不同场景的泛化性。实验表明本文提出的基于栅格地图的多机器人导航算法相比其它的强化学习多机器人导航算法和传统机器人导航算法拥有更好的导航性能,并对传感器噪声有一定鲁棒性。在社交行人环境中,机器人需要合理应对场景中以各种策略移动的行人,这为导航算法引入了两个难题,其一是对行人信息的表示,其二是对行人移动策略的应对。针对原始深度传感器信息对行人感知能力不足的问题,本文将行人信息和传感器信息相融合,提出了行人地图,其将行人的位置与速度信息映射到了栅格地图上,行人地图可以有效的和传感器地图相结合以提高强化学习导航算法在行人环境下的避障成功率。针对场景中策略单一的问题,本文引入了多种不同的行人策略来进行导航算法的训练,这种训练方式可以提高导航算法应对不同策略行人的能力。本文将仿真中训练的导航算法移植到机器人上,并在实际环境中部署相应的场景,模拟了静态场景、动态场景、多机器人场景以及行人场景。机器人可以顺利地完成几种场景的导航任务,说明本文中提出的算法易于移植到真实的环境中运行。最后本文将上述研究成果和传统的导航算法、SLAM系统以及任务规划模块相结合,解决了强化学习导航算法观测范围有限的问题,提高了导航算法的易用性,并部署在实际环境中解决了更复杂的移动机器人导航任务。
其他文献
在安全关键信息物理系统中,系统的正确不仅取决于计算结果的正确,还取决于系统时间规约是否得到满足。形式化建模与验证方法是保障系统行为满足系统规约的重要手段。在系统设计与开发过程中,针对时间属性的模型验证能有效提高系统时间可预测性。形式化验证方法分为模型检验方法(Model checking)和定理证明方法(Theorem proving)。针对高并发系统,基于状态空间遍历的模型检查方法存在状态空间爆
学位
壳寡糖是甲壳素脱乙酰形成的壳聚糖经物理、化学或酶法水解等多种方法处理后得到的降解产物,与壳聚糖、甲壳素相比具有较为突出的优点,且在抗肿瘤、抗菌、免疫激活和保湿等各个方面都有很好的生物活性。基于壳寡糖的多功能性,对其工业化应用的研究一直是国内外研究的热点。另外,生产壳寡糖可减少甲壳素在陆地和海洋沉积物中的积累,为缓解环境压力提供了一种解决方法。近年来,制备壳寡糖的多种技术方法已被广泛的研究与应用。酶
学位
非隔离型双向DC/DC变换器作为一种特殊的“一机双用”设备,因其具有体积小、器件少、重量轻、性价比高等优点,被广泛应用于能量双向流动的新能源发电系统、储能电网、电子设备等领域。本文以馈网式二次电池化成分容设备中恒压恒流板的主电路为研究对象,给出样机指标,从实现基本功能出发,选取主电路拓扑,计算器件参数,以降低器件损耗和提高效率为目标展开研究。本文首先详细分析了电力场效应晶体管(MOSFET)损耗模
学位
近几十年来,反应扩散方程已成为种群动力学理论研究的重要工具之一。通过建立相应的种群生态模型,分析模型解的动力学性质,我们可以揭示种群的运动规律,预测生态现象。在现实中,资源分布会随着时间或位置发生变化,从数学角度反应项可能不再连续。因此经典连续系统已经不再适用,我们需要考虑更一般的系统。在本文中,我们研究带有时空结构的Fisher方程ut=uxx+f(x,t)u(1-u).考虑其生物背景,我们研究
学位
大部分高能物理实验都需要对粒子的轨迹进行测量,这通过待测粒子和径迹探测器相互作用进行探测。高能物理实验通过选择合适的径迹探测器来将粒子的位置信息转变成可被电子学系统处理、存储的电子学信号。随着几十年的发展,径迹探测器也从早期的威尔逊云室发展到多丝正比室,再到当今应用越来越广泛的半导体探测器,使得探测器的空间分辨能力、灵敏度越来越高。随着半导体工艺的迅速发展,半导体探测器的性能也在不断地提升,其中硅
学位
土壤重金属污染一直是环境领域重要研究方向,过去的研究主要聚焦在工业区、农业区、矿区和冶炼区等传统污染场地,对试验场地土壤重金属研究仍然有限。然而从军械生产、运输、使用到拆卸销毁的整个周期都会向外界释放重金属,从而导致试验场地土壤产生严重的污染问题。进入到土壤环境中的重金属可以通过摄入途径在人体内累积,从而危害人体健康。因此,对土壤中重金属污染来源和污染特征开展研究,进而对其风险开展客观评价显得尤为
学位
电阻抗成像(Electrical Impedance Tomography,EIT)技术是一种无损伤的可视化检测技术,具有无辐射、非侵入和功能性成像等优点,在生物医学、农业地质、工业检测等领域具有广阔的应用前景。但EIT技术固有的非线性、病态性和不适定性等问题,造成其成像质量较低,限制了其在应用领域中的发展。为提高重建图像质量,本文对电阻抗成像正问题计算、逆问题求解、图像重构算法和实验验证等进行了
学位
在本文中,我们改进Keener提出的模型,假定钙离子释放点是离散的,从而该系统没有一个固定形状的传统行波解,而是一种具有突变现象的脉冲波。我们对脉冲波进行研究,解释了在该系统中波的突变现象。我们首先研究该系统正稳态的性质,得出在参数a小于某个临界值ac(L)时,这个系统有两个稳定的L-周期稳态uε,+和0.接着将这个具有双稳结构的系统拆分成两个具有单稳结构的子系统,利用反向传播条件,得到了连接uε
学位
大坝安全监测是大坝全生命周期中不可或缺的部分,其体系十分复杂,具有监测内容多、监测部位分布广、监测数据量大、管理事务多等特点。传统的大坝安全监测系统存在可视化效果差、数据分析处理能力低等弊端,远不能满足现代大坝安全监测与管理的需求。BIM技术具备三维可视化、精细化管理和全生命周期等优势,但是BIM技术在水库大坝运维管理阶段的应用还很少。鉴于此,本文将大坝安全监测与BIM技术相结合,研究大坝安全监测
学位
武汉河段位于长江中游,三峡水库运行后,坝下游径流过程发生变化,水库拦沙引起长江中下游河道冲刷和水沙特性改变。武汉河段含沙量及输沙量大幅减少,床沙粗化;高洪水流量出现频率降低,滩地上过流时间大大减小促进了洲滩上植被地生长,以及近年来实施了大量的整治工程,都导致了武汉河段糙率的改变。河流阻力可以通过糙率这一综合系数进行反映,它亦是影响河道行洪的关键因素。糙率变化也会影响水流运动,研究武汉河段糙率变化对
学位