论文部分内容阅读
强化学习算法是机器学习的一个重要分支,主要研究如何利用智能体与外界环境的交互数据学习完成特定任务的控制策略。由于强化学习算法要求模型能够表征高度复杂的策略,因此利用表现力极强的深度神经网络作为策略表征的深度强化学习算法逐渐成为主流。虽然深度神经网络较大的参数空间使得深度强化学习算法掌握高度复杂的技能成为可能,但是这也使其学习过程需要大量的交互数据才能够达到良好的学习效果。深度强化学习算法的采样低效问题在信息物理系统中尤为严重。在信息物理系统中,智能体与环境的交互速度十分缓慢。同时,在训练过程中,次优的策略所做出的随机性较大的动作可能损坏机体。因此,信息物理系统中的交互数据是十分昂贵的。文主要研究如何提高强化学习算法的采样效率,进而减少强化学习算法对交互数据的高度依赖。文将深度强化学习算法与传统的最优控制理论结合,在避免传统方法的局限性的同时,提高深度强化学习算法的采样效率。具体而言,文从提出新的初始化策略与目标任务分解这两个思路来尝试得到高效的深度强化学习算法。在第一个工作中,我们提出一种基于模型预测控制器的初始化策略。模型预测控制器质上是一个有约束的最优化问题,可以被理解为一个隐式的策略。在课题中,我们使用多参数规划方法,将模型预测控制器转化为一个完全等价的分段线性函数。这样的操作相当于将模型预测控制器转化为一个显式的、参数化的策略。进一步地,我们将该分段线性函数转化为深度神经网络。不同于模仿学习普遍采用的监督学习方式,我们提出的方法可以直接对神经网络的权值进行赋值。基于这种初始化方法,现成的深度强化学习算法可以直接在模型预测控制的控制性能基础上进行微调。由于神经网络的初始性能与模型预测控制器完全一致,因此文提出的初始化策略可以帮助智能体在良好的初始解附近搜索,极大地提高算法的收敛性能和采样效率。在第二个工作中,我们将基于模型预测控制的初始化策略与目标任务分解进行结合。基于模型预测控制的初始化策略虽然能够提高采样效率,但是其性能在一定程度上受到原始模型预测控制器的影响。之前的研究表明,模型预测控制器并不是在任何任务下都可以表现出良好的性能。为此,文构建了一个自适应子任务生成模块,即强化学习算法并不是直接要求智能体掌握复杂技能,而是考虑模型预测控制器的性能,将目标任务分解为一个由易到难的子任务序列。具体而言,子任务生成模块会选择对于模型预测控制器较为容易的初始子任务进行训练,之后随着策略性能的提升不断提高子任务的难度,最终帮助智能体完成复杂的目标任务。为了验证算法的有效性,我们在不同的仿真实验平台上对算法进行了测试。除了常用的强化学习测试环境OpenAI Gym,我们还利用仿真软件搭建了不同的测试环境,如四旋翼无人机、城市交通路网等。实验结果表明,基于模型预测控制的初始化策略能够帮助强化学习算法迅速收敛到较好的局部最优解。同时,通过与自适应子任务生成模块结合,基于模型预测控制的初始化策略能够帮助强化学习算法在不同测试环境下均取得良好的采样效率与收敛性能。