论文部分内容阅读
深度强化学习算法的不稳定性和可变性对其性能有重要的影响.深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,深度Q网络存在着高估动作值使agent性能变差的问题.尽管深度双Q网络能够缓解高估带来的影响,但是仍然存在低估动作值的问题.在一些复杂的强化学习环境中,即使是很小的估计误差也会对学习到的策略产生很大影响.为了解决深度Q网络中高估动作值和深度双Q网络中低估动作值的问题,提出一种基于权重平均值的深度双Q网络方法(averaged weighted double deep Q-netw