基于自组织模糊RBF网络的连续空间Q学习

来源 :信息与控制 | 被引量 : 0次 | 上传用户:cucumber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了“连续状态一连续动作”的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验
其他文献
【正】 对社会经济活动进行正确的宏观控制,需要解决一系列理论问题,社会总积累与总消费的合理比例问题便是其中之一。以经验来处理这个问题,难免出现积累率过高或消费增长过
高职院校实验技术队伍建设直接影响着教学质量的提高和科研工作的进程,针对目前高职院校实验技术队伍建设中存在的问题,提出以人为本、加强改革与创新措施,以建设一支具有学
详述了观赏南瓜的特征特性、主要品种及栽培要点:包括育苗、定植、病虫害防治和采收。
高职院校实践教学中存在一些问题,必须进行改革。实验中应突出学生的主体位置,吸收其参与教师的教研和科研;要运用现代化教学手段;还应开放实验室,开辟第二课堂;发挥校外实训基地的
对广义梯度投影算法作了进一步推广,选择与切面有一定偏差的面进行广义梯度投影.这一算法数值稳定性较好且应用范围更广.