Q-learni相关论文
强化学习通过与环境的交互来学习行为策略。强化学习方法是在线的增量学习,易于实现。文中提出了基于函数近似的强化学习算法,并将......
为了有效解决零售商在销售易逝品时的订货、旧产品处理及定价的联合决策问题,提出运用马氏决策过程建立模型及使用Q学习算法求得最......
解决单交叉口信号灯最优控制问题。提出了基于强化学习的信号灯控制系统结构,应用强化学习中Q学习,将信号灯最优控制问题转变成是......
Obstacle avoidance becomes a very challenging task for an autonomous underwater vehicle(AUV)in an unknown underwater env......
强化学习使agent具有在线自主学习能力,该文介绍了MDP模型下的自适应动态规划、时序差分学习、Q-学习等几种典型agent强化学习方法,......
强化学习在多Agent系统中面对的最大问题就是随着Agent数量的增加而导致的状态和动作空间的指数增长以及随之而来的缓慢的学习效率......