经验回放相关论文
传统基于注意力机制的推荐算法只利用位置嵌入对用户行为序列进行建模,忽略了具体的时间戳信息,导致推荐性能不佳和模型训练过拟合等......
多智能体系统是由多个智能体与环境交互组成的分布式决策系统,是分布式人工智能的一个重要研究方向,在复杂未知的现实社会具有广阔的......
障碍规避是无人机等自主无人系统运动规划的重要环节,其核心是设计有效的避障控制方法.为了进一步提高决策优化性和控制效果,本文......
经验回放(Experience Replay,ER)是深度强化学习(Deep Reinforcement Learning,DRL)的重要组成部分,通过重复采样学习保留在经验池中的......
多智能体系统(MAS)是指由多个可以与环境进行交互的智能体所组成的计算机化系统。由于深度强化学习具备极强的探索以及决策能力,深度......
深度强化学习是当前人工智能研究领域新的热门方向,它将深度学习的感知能力与强化学习的决策能力相结合,以端对端的形式实现了从原......
区别于传统深度强化学习中通过从经验回放单元逐个选择的状态转移样本进行训练的方式,针对采用整个序列轨迹作为训练样本的深度Q网......
深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)在连续控制问题中具有良好的表现.针对二连杆机械臂的运动控制......
强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控......
端到端方法是实现自动驾驶的方法之一,而自动驾驶的场景较为丰富,不同场景的特征差别较大,这使得基于强化学习的端到端自动驾驶方......
近年来,随着人工智能的快速发展,越来越多的智能设备进入普通民众的视野,如谷歌的无人车等。这些设备之所以被称为智能设备,是因为它们......
深度强化学习是机器学习领域中一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对......
深度强化学习方法将深度学习与强化学习相结合,目前已在多种复杂决策任务的处理中展现出了强大的通用性并取得了突破性的进展。利......
近年来,深度强化学习的取得了飞速发展,为了提高深度强化学习处理高维状态空间或动态复杂环境的能力,研究者将记忆增强型神经网络......
提出了一种固定长度经验回放的思想,并将该思想与一步Q和Peng Q(λ)学习算法相结合,得到了相应的改进算法。该文采用不同的回放长......
提出了一种新的分层强化学习(HRL)Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,并采用改进的蚁群聚类算法(ACCA)对......
提出了一种固定长度经验回放的思想,并将该思想与一步Q和pengQ(λ)学习算法相结合,得到了相应的改进算法。该文采用不同的回放长度L将......
最近,OpenAI发布了8个模拟机器人环境,以及一个事后经验回放(Hindsight Experience Replay)的基线实现,所有这些都是基于过去一年......
强化学习的经验回放方法在减少状态序列间相关性的同时提高了数据的利用效率,但目前只能用于确定性的状态环境.为在随机状态环境下......
分层强化学习中目前有Option、HAM和MAXQ三种主要方法,其自动分层问题均未得到有效解决,该文针对第一种方法,提出了Option自动生成算......
针对连续状态空间的非线性系统控制问题,提出一种基于残差梯度法的神经网络Q学习算法。该算法采用多层前馈神经网络逼近Q值函数,同......
在全世界范围内,建筑能耗在社会总能耗中占比较高,并且以较快速度在逐年增长,建筑节能已成为所有国家能源政策上的首要目标。建筑......
传统的机械臂控制方法建立在基于任务的精确数学模型之上,缺少自适应性,当环境或任务发生变化时,控制效果大打折扣甚至失控。近年......
行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量......
提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于......
深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学......
随着无人机相关技术及产业的不断发展,其在侦察、农业、物流、娱乐等方面的使用率也逐渐提高。又由于无人机飞行环境的日益复杂,在......
一直以来,强化学习算法在解决与环境进行交互的控制决策问题时由于无法直接处理来自环境的原始感官数据,因而应用范围非常有限,并......
针对实时系统的在线最优控制策略学计算开销高的缺点,提出基于经验回放和Q-Learning的最优控制算法。采用经验回放(experience repl......