论文部分内容阅读
强化学习是机器学习中的重要研究方向之一,通过让智能体在环境中不断试错学习,从而改善自身策略来获取最大的累积奖赏。近年来深度强化学习已经在很多序列决策问题上取得了重要突破和进展。传统强化学习方法一般针对固定的任务和静态的环境,然而,在很多真实世界的问题中,智能体不是仅完成一个任务,而是面对一系列任务,并且其所处环境也在动态变化,这就导致了传统强化学习方法的适用性大大下降,学习效果受到影响。针对非固定任务的应用场景,本文提出基于浅迹的元策略方法。元策略学习最大化的是在多个任务上的累积奖赏,而不是针对单个任务优化,这就使学习到的元策略可以在测试任务上进行重用,从而可以适应于非固定任务的情况。然而,元策略的重用会遇到两个主要的困难,其一是任务空间较大,其中可能存在一些不相关甚至是目标相矛盾的任务,一起训练会造成干扰,影响学习效果;其二是在训练和重用策略时,元策略学习需要有效的任务特征。为了解决上面这两个问题,我们提出了浅迹方法,并在此基础上提出了 MAPLE算法。OpenAI Gym的MuJoco环境上的实验显示出MAPLE算法可以在训练任务上学习到很好的策略,并且可在测试任务上重用,证明了提出的方法的有效性。针对非静态环境的应用场景,本文提出了鲁棒DQN方法。我们观察发现动态环境对强化学习的影响主要有两个方面,一是奖赏估计中的方差过大,二是奖赏波动。针对方差过大的问题,我们提出用分层采样回放方法来取代传统的随机采样回放方法,针对奖赏波动问题,我们提出了用近似遗憾奖赏方法来取代原始的瞬时奖赏。然后,我们将这两种方法与Double DQN算法结合,提出了鲁棒DQN算法,并在淘宝的锦囊推荐系统中进行了应用。我们首先证实了推荐平台上确实存在着高度的动态变化的情况,并通过线上A/B test实验证明了鲁棒DQN算法能够有效地稳定奖赏估计,从而能够提升智能体在真实的动态环境中的学习表现。