时间差分误差相关论文
序列决策问题的求解能力是人工智能的核心要素之一,强化学习是一种序列决策问题的求解方法。无模型的强化学习算法在诸多应用中获......
强化学习在近些年逐渐成为人工智能领域的一个研究热点,而且已经在游戏、控制、自然语言处理等领域取得了非常大的成功。面对越来......
近几年来,在人工智能领域中深度强化学习取得令人瞩目的成就。在处理大规模连续状态空间的任务上,深度强化学习方法成功解决了传统......
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的......