论文部分内容阅读
无人机集群在军民领域中具有巨大的应用前景,吸引了越来越多的研究人员对其关键技术进行攻关。集群中无人机数量众多,在诸如无人机群自主续航、自主回收等场合,无人机自主降落是集群高效管理的核心技术之一。本课题针对无人机自主降落问题,采用深度强化学习实现鲁棒的无人机自主降落,即在深度强化学习的框架下,以图像作为模型的输入,设计端到端的无人机自主降落伺服控制方法,以提高无人机自主降落的智能化水平。课题的主要研究内容如下:(1)在深度强化学习框架下,设计并实现用于解决无人机自主降落问题的值函数Q-learning学习算法。首先将无人机的降落问题描述为马尔科夫决策过程,将无人机下视图像直接作为无人机状态,离散化动作作为无人机行为,并利用无人机位置信息构建奖励回报函数。借助无人机与环境的交互迭代,完成深度强化学习神经网络的训练,实现无人机自主降落的端到端控制。训练过程包括原始Q-learning算法,3DQN(Dueling-Double-Deep Q-learning Network)算法等。为提高训练速度,加速模型收敛,算法进一步引入外部控制器、使用数据库预训练等方式。仿真验证表明,提出的端对端控制算法能够有效地实现无人机自主降落。(2)基于AC(Actor-Critic)框架,借助深度确定性策略梯度(Deep Deterministic Policy Gradient)算法解决无人机端到端自主降落控制,以提高降落的平滑度和加快算法收敛速度。首先引入AC框架,将无人机的控制量由离散取值变为连续取值,并构建策略网络(Actor)和价值网络(Critic)。而后采用深度确定性策略梯度DDPG方法,训练优化模型参数,并通过监测价值网络损失值确定训练终止条件。仿真验证表明,该方式使得无人机的飞行轨迹比离散动作控制更为平滑,且能更为高效地实现收敛。(3)采用基于数据库训练的深度强化学习端到端控制算法,实现了无人机自主降落的飞行验证。将基于深度强化学习算法3DQN、利用数据库进行预训练的深度神经网络模型成功地移植到无人机实物平台,在线测试了真实环境下的无人机自主降落问题。测试结果表明该方法能够将无人机比较准确地降落在地面标识中心点附近,验证了提出的基于深度强化学习端到端控制的有效性。