论文部分内容阅读
如何直接通过高维感知输入(如视觉、语音等)的学习去控制agents对强化学习来说是一个长期的挑战。这些领域中成功的强化学习应用案例主要依赖于组合人工特征和线性价值函数或策略表达来实现,然而这些系统的性能严重的取决于特征选取的好坏程度。随着深度学习领域的进展直接从原始感知的高维数据中提取高层特征变成可能,这些成果导致了在计算机视觉领域和语音识别领域的突破。这些方法应用了一系列的神经网络架构,包括卷积神经网络,多层感知机,限制玻尔兹曼机和递归神经网络等,并且均使用了监督学习和无监督学习。这些技术的突破让人们开始考虑是否能给强化学习领域带来新的发展。然而从深度学习的角度来看强化学习则呈现出了一系列的挑战。首先,迄今为止大多数成功的深度学习应用中需要大量人工标记的训练数据,而强化学习必须从稀疏的、有噪声的和延迟的奖励信号中去学习。另外,在多数深度学习算法中假设数据样本是独立的,但是在强化学习中数据会高度序列化相关。此外在强化学习中数据分布会随着算法学习到新的行为而改变,与深度学习中假设数据从同一潜在分布中采样不同。本文提出以下方法克服这些问题,首先根据任务的具体情况设计了一种深度神经网络架构,可以在复杂的强化学习环境中提取高层特征并直接通过原始视频数据学习到控制策略;另外,本文提出了一种加权模型融合的方法,该方法使用了8种不同网络架构并且性能相近的模型进行融合,融合方法能够平稳模型的决策方案并提升游戏性能;此外,这些网络均使用一种改进的Q-learning算法来进行训练,算法在训练过程中使用特殊的采样方法从大量的历史经验数据中采样样本并使用mini-batch的L-BFGS算法进行权重更新。通过实验表明,结合深度神经网络的强化学习模型通过使用改进后的Q-Learning算法进行训练能够以平稳的方式成功学习到控制策略,该模型在视频游戏的表现上对比传统强化学习模型和NFQ模型有明显提高并且6个游戏中有4个的测试得分超过人类玩家,同时通过加权模型融合的方法可以进一步提升模型在视频游戏中的表现。