论文部分内容阅读
自主飞行技术在无人机自主巡线、无人机测绘等行业应用中有着重要的地位。传统自主飞行方法都是在获取充足的传感器信息的基础上建立起精确的数学模型,从而实现无人机的自主飞行。但是在一些相对复杂的飞行任务中往往难以建立起有效的自主控制数学模型。在这种情况下,基于各种机器学习算法的无人机自主飞行方法成为了近年来的研究热点。增强学习是一种在机器人自主控制领域应用最为广泛的机器学习方法。结合深度学习和增强学习优点的深度增强学习技术在近年来得到了很大的发展,给无人机自主飞行技术研究带来了新思路。本文基于四旋翼无人机运动学特性,对无人机自主飞行过程进行建模。通过数学建模将无人机自主飞行过程简化为马尔科夫决策过程,使得其可以纳入到增强学习框架进行求解。为了简化求解过程,本文简化了无人机运动学模型,将无人机控制量由四自由度连续量简化为单自由度连续量。为了验证深度增强学习方法的效果,本文设计了一个具体的任务场景—复杂场景下的无人机自主避障飞行。基于Actor-Critic深度增强学习架构,本文建立了基于单目图片数据的无人机自主飞行算法框架。框架包括一个策略网络以及一个评价网络,策略网络用于输出控制量,评价网络用于评价无人机的控制效果。为了加快模型的学习速度,本文使用基于时序差分采样的在线学习方法来训练评判网络。基于评价网络给出的评价计算策略梯度,实现策略网络的优化。策略网络和评价网络交替更新,直到收敛。为了防止自主控制模型陷入局部最优,本文在训练过程中使用ε-贪心算法来处理策略网络输出的控制量,使得无人机除了会执行策略网络输出的最优动作外,还有一定概率执行次优动作,实现了“利用”与“探索”的平衡。实验结果验证了本文提出的深度增强学习算法在无人机自主飞行上的有效性。针对本文所提出算法在四旋翼无人机自主飞行领域应用时的不足,提出了三点改进方法。针对本文所提出算法在无人机平台上运行实时性不足的问题,本文提出了一种神经网络优化加速方法;针对现有增强学习算法数据利用效率低下,训练成本高的问题,提出一种改进的效用迹模型来提升数据的利用率;针对单目图片信息不足以满足导航需要的问题,提出了一种多模态网络来融合单目和IMU以及气压计数据,实现了闭环控制。实验结果表明,经过改进后的模型在实时性和鲁棒性上都获得了较大的提升。本文针对复杂场景下四旋翼无人机自主飞行的问题,提出了一种基于深度增强学习的无人机自主飞行方法。本文完成了无人机自主飞行过程的数学建模,建立了适用于深度增强学习框架的数学描述。针对深度增强学习方法在无人机自主飞行应用场景下的不足,提出了相应的改进方法。实验证明本文提出的无人机自主飞行方法有着自己的优势,相比起经典方法,其实时性、鲁棒性和精度都有一定的提升。