SARSA学习相关论文
TD-SCDMA作为我国自主研发的3G标准,经过这些年的发展成熟,为我国广大移动网络用户提供良好的网络服务。与此同时,WLAN技术自提出以来......
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种......
针对动态环境下多机器人任务分配的问题,提出一种基于模糊神经Sarsa学习网络的效用函数模型,将模糊推理系统,神经网络模型与Sarsa......
处理连续状态强化学习问题,主要方法有两类;参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺......
提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进......
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对......
在异构Macro-femto蜂窝网络中,随着日益增长的用户数量使得基站能耗问题变得更加严峻,提升整个移动系统能效的有效方式就是进行基......
随着我国城市现代化进程的不断推进,交通问题成为影响社会发展的一个大问题。其中,交通拥堵是最为常见并影响较大的交通问题,国内......
使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间......
城市交通控制的核心是由交通灯控制系统和车辆诱导系统两部分组成,实现在空间上对交通流进行分流和在时间上对交通灯进行动态配时......
对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用"同策略"迭代的Sarsa学习算法,......