论文部分内容阅读
对图像进行识别并做出判断输出相应的动作或者决策对很多领域有重要的意义,特别是在汽车的无人驾驶,医疗机器人等方面。深度学习作为一种无监督的图像识别的技术极大实现中间没有进行额外的人工标记的工作。强化学习是通过优化累积的未来奖励信号学习连续决策问题的良好策略。两者的结合使得深度强化学习实现识别图像到动作选择的一种全新的算法,可以直接根据输入的图像实现控制功能,是一种类似于人类学习方式的人工智能方法,其特点是达到和人类一样由感知信息比如视觉,然后通过深度神经网络直接输出相应的动作。深度强化学习具备使机器人实现真正完全自主的学习技能的潜力。深度强化学习在理论和应用方面均取得了显著的成果,对促进人工智能领域的发展具有极大的意义。本文基于深度强化学习的相关理论识别视频游戏中的图像,并根据不同的图像信息输出对应的动作策略,例如,游戏中的上,下,左,右,攻击等。本文具体的工作内容包括:(1)强化学习中本文采用的是Q-learning算法,但是算法有时候学习到不符合实际的高的动作价值函数,因为它包括一个倾向于高估计价值函数的最大化步骤。在以前的研究中,过高的估计是不够有效灵活的函数近似和噪音。研究显示动作值预测不准确的时候过高估计就会发生,这在实践中会对特别是在训练的稳定性上产生负面影响。本文采用了双步Q-learning,可以推广到任意的函数近似,包括在深层神经网络应用双步Q-learning形成的双步DQN(Double Deep Q-learning Network)的方法来解决过高估计问题。(2)另外,深度学习的训练需要大量的样本数据,而且本文在数据集上使用的样本会有高度的相关性问题,本文通过添加了融合了不同模型的神经网络,称之为融合模型的神经网络结构,神经网络结构的不同造成样本数据的多样性提高,并在经验回放机制采样的过程中减少了样本的相关性。仿真结果显示了双步深度强化学习算法不仅产生更准确的估计值,提高训练的稳定性。而且成功学习到了控制策略,并在几款视频游戏中得分要比原始深度强化学习高得多。这表明原始DQN的过高估计确实学到了不是最好的策略,减少这些过高估计是有益的,同时通过模型融合的方式进一步提高了深度强化学习在视频游戏中的得分。