论文部分内容阅读
强化学习是一种以试错机制与环境进行交互,通过最大化累计奖赏的方式来优化策略的机器学习方法,在解决无模型的控制和决策问题上具有很好的效果。近年来,随着深度学习的快速发展和计算能力的提升,研究人员将深度神经网络强大的特征提取和表示能力与强化学习的决策和控制能力相结合,提出了深度强化学习方法。这类算法给机器人控制领域的动力学建模、环境感知以及多机器人协同等难题带来了新的解决思路。基于深度强化学习的控制方法不需要事先建立被控机器人的精确数学模型,而是直接在与被控机器人的交互过程中对控制策略进行在线优化。通过训练深度神经网络,可以在高维的原始传感数据中提取关键信息并用于决策和控制,最终构成从原始传感数据到系统控制输入的端到端的机器人学习与控制方法。在多机器人协同问题上使用多智能体强化学习算法能够使多个机器人在相互通信和与外界环境交互中构建协同控制策略,从而合作完成任务。尽管基于强化学习的控制方法在理论上具有上述种种优势,但是在实际的机器人控制应用中则会面临各种问题。例如在学习过程中如何保证被控对象的安全稳定;如何根据任务需求设计合理的算法结构;如何在有限的通信资源下构建合作策略等等。本文在现有的深度强化学习算法基础上,面向移动机器人的运动控制、导航避障以及协同合作三方面的问题,结合实际应用场景展开研究,为基于深度强化学习的机器人控制问题提供了一定的理论指导和技术支撑。本文的主要贡献如下:(1)提出了一种带积分补偿的确定性策略梯度算法,解决了四旋翼无人机在精确动力学模型未知情况下的运动控制问题。针对四旋翼无人机欠驱动、非线性、不稳定的动态特性,以及精确运动学模型难以构建的问题,基于深度确定性策略梯度算法,使用深度神经网络构建从无人机状态参数到电机控制量之间的映射,并根据设计的奖励函数对网络参数进行更新。针对原始深度强化学习算法在控制应用中被控状态存在稳态误差问题,引入了积分补偿机制,并改进了训练算法,通过迭代学习最终可以获得精度更高的控制策略。另外,对于深度强化学习的控制方法在实际应用中的安全性问题,提出了一种两段式训练算法。通过离线阶段的训练得到鲁棒性较强的控制器,然后通过在线阶段在离线控制器的基础上对参数进行微调,进一步提高控制器的性能。在高精度四旋翼仿真环境中的实验结果表明提出的深度强化学习方法在没有四旋翼精确的动态模型的情况下,通过提出的学习算法能够获得动态性能良好且对各类干扰具有较强鲁棒性的运动控制器。(2)提出了一种模块化深度强化学习算法,解决了地面移动机器人在复杂未知环境下使用二维激光雷达躲避移动障碍物并前往指定位置的问题。现有的机器人避障和路径规划方法通常在已知环境下进行,而在未知或动态的环境下则存在较大难度。首先,基于深度Q-学习提出了一种避障控制方法。针对环境中移动物体的激光雷达信息特征提取问题,提出了一种新型的双流Q网络结构,将移动物体的运动信息融合到机器人的观测状态中,实现了机器人对动态环境更加全面的观测。然后,分别应对局部避障问题和全局导航问题,设计了独立的强化学习模块并进行预训练,通过引入动作调度机制,将预训练得到的导航和避障策略进行在线融合。模拟环境中的实验结果表明提出的导航和避障策略相比于常规的深度强化学习方法和传统的机器人控制方法在学习速率和导航避障效果方面均具有明显优势。(3)提出了一种基于多智能体强化学习的多机器人协同控制方法,解决了多个移动机器人对单个目标进行合作围捕的问题。在单个智能体深度强化学习算法的基础之上,引入了基于学习的通信机制和集中式训练-分布式执行的算法结构,使每个追捕机器人在与其队友和目标的交互过程中进行在线学习。该方法可以在外部环境信息和追逃双方动态信息均未知的情况下解决多追捕者合作追捕的问题。针对现有的多智能体强化学习算法中使用广播通信方式带来的通信和计算量大、实现成本高等问题,设计了简单的环形拓扑和主从式线形拓扑两种通信网络结构,并给出了相应的多智能体强化学习训练算法。实验结果表明了所提出的方法在更少的通信量和计算量的前提下,获得了比其他多种多智能体强化学习方法更好的围捕效果。(4)提出了一套用于无人机-无人艇协同海上侦察任务的图像处理和运动控制方法。首先给出了一种基于深度卷积神经网络和空间softmax的图像目标定位和角度估计算法,可以通过无人机航拍图像获取海上无人艇和侦察目标的位置和姿态。然后,针对海浪干扰下的无人艇控制问题,引入了基于双延迟深度确定性策略梯度的深度强化学习算法,通过模拟训练获得高效的控制策略,使得无人艇能够根据无人机提供的位置和姿态信息,快速接近海上目标并在其周围进行侦察。最后,针对无人机在风浪干扰下的自主着艇问题,在第一项研究内容提出的四旋翼无人机控制方法的基础上,提出了一套无人机安全着艇控制流程,使无人机在面临干扰和风险时能够及时脱离危险状态,保障着艇安全。通过无人机艇协同仿真平台上的测试,验证了提出了无人机艇协同侦察和自主着艇控制方法的有效性和安全性。