基于自组织模糊RBF网络的连续空间Q学习

来源 :信息与控制 | 被引量 : 0次 | 上传用户:cucumber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了“连续状态一连续动作”的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验
其他文献
针对高校网络多媒体教室、Windows 2000、Novell Netware教学网络系统和校园网,提出计算机教学网、网络多媒体教学系统、校园网络环境的设置和安全维护的方法与对策.
期刊
【正】 对社会经济活动进行正确的宏观控制,需要解决一系列理论问题,社会总积累与总消费的合理比例问题便是其中之一。以经验来处理这个问题,难免出现积累率过高或消费增长过
文荣德,男,汉族,中共党员,四川苍溪人,1917年10月出生,2016年2月逝世于成都,享年99岁。文荣德1933年12月在家乡参加红军,他的戎马生涯经历了红军时期、抗日战争、解放战争、抗美援朝
高职院校实验技术队伍建设直接影响着教学质量的提高和科研工作的进程,针对目前高职院校实验技术队伍建设中存在的问题,提出以人为本、加强改革与创新措施,以建设一支具有学
来经济所以前张闻天是一个著名的政治活动家、马克思主义理论家。从1935年1月—1938年9月,他曾任中共中央总书记近4年,党中央的很多重要决定都出自他的坚持和主张,也出自他的
详述了观赏南瓜的特征特性、主要品种及栽培要点:包括育苗、定植、病虫害防治和采收。
高职院校实践教学中存在一些问题,必须进行改革。实验中应突出学生的主体位置,吸收其参与教师的教研和科研;要运用现代化教学手段;还应开放实验室,开辟第二课堂;发挥校外实训基地的
对广义梯度投影算法作了进一步推广,选择与切面有一定偏差的面进行广义梯度投影.这一算法数值稳定性较好且应用范围更广.
<正> 二十世纪初年,中国民族资本主义有了一定程度的发展。可在这个时候,帝国主义列强为了巩固和扩大其在中国的势力范围,加紧对中国的争夺,正拼命地向我国输出剩余资本,掠夺我国的丰富资源,而腐朽的清朝政府为了换取帝国主义对它的支持,又放肆地大批出卖国家主权。这种情况,不仅严重地阻碍中国资本主义经济的成长,而且还危及到中国政治主权的独立。因此,从1903年起,一个以新兴的民族资产阶级发起和领导的“收回利权”的反帝爱国斗争,迅速从中国的大地上兴起。河南人民反对英商福公司矿权的斗争,正是这一时期《收回