自适应RBF网络Q学习控制

来源 :控制与决策 | 被引量 : 0次 | 上传用户:skyskysky094411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用RBF网络逼近连续空间的Q值函数,实现连续空间的Q学习.RBF网络输入为状态-动作对,输出为该状态-动作对的Q值.状态由系统的状态转移特性确定,动作由优化网络输出得到的贪婪动作与服从高斯分布的噪声干扰动作两部分叠加而成.利用RNA算法和梯度下降法自适应调整网络的结构和参数.倒立摆平衡控制的实验结果验证了该方法的有效性. The RBF network is used to approximate the Q value of continuous space to realize Q learning in continuous space. The input of RBF network is the state-action pair and the output is the Q value of this state-action pair. The state is determined by the state transition characteristics of the system, The greedy action obtained by the network output and the noise interference action obeying Gaussian distribution are superposed.Adopting RNA algorithm and gradient descent method to adaptively adjust the structure and parameters of the network.Experimental results of the inverted pendulum balance control verify the effectiveness of the method .
其他文献
在传统社会的两性二元体系中,女性一直处于从属和依附地位。“男主外女主内”、“男尊女卑”是其主导的社会价值观。人类文明发展到今天,女性的社会地位已经有了大幅度的提
本文系统介绍了福建三钢集团罗源闽光2×1 250 m3高炉项目的设计特点.总结了该项目总图布置的优点,并详细阐述了高炉采用的抗涨和防漏型炉体、炉缸、炉底结构,以及高炉均排压
2010年并不是热闹的美术年,在经历过2009年的一系列重大活动之后,2010年的美术界看似放缓的脚步开始深入生活、寻找素材、蓄积能量,为迎接2011年围绕建党90周年以及辛亥革命
培养选拔优秀年轻干部是今年组织工作中的一项重要任务。目前,我市面临着撤地设市和机构改革,这为我们培养使用优秀年轻干部提供了很好的机遇。在具体工作中,突出抓好以下几
根据中央的统一部署和市级领导班子、领导干部“三讲”教育工作的整体安排,经与中央巡视组研究确定,从今天开始到5月16日,我们要在前一段思想发动、学习提高的基础上,转入“
寨卡病毒是黄病毒科的一种虫媒病毒,主要通过伊蚊叮咬传播.寨卡病毒是单股正链RNA病毒,根据全基因序列系统发生分析可将其分为非洲系和亚洲系,非洲系寨卡病毒主要感染非人灵
在太原省立一中读书的彭真(傅懋恭),是山西党、团组织的秘密领导人,是省城知名的群众运动领袖。阎锡山当局视之为眼中钉、肉中刺,只是鉴于彭真的声望,不敢轻举妄动,便派特务
体育院系在体育教学中强调技术教育,而忽视教学能力的培养。提高学生教学能力的问题。是目前存在于体育院系术科教学中一个带普遍性的问题。该文就在健美操教学中培养体育教育
党的十九大报告明确提出,要深化供给侧结构性改革,要把发展经济的着力点放在实体经济上。“一带一路”建设、“中国制造2025”和“互联网+”行动等正在加快实施,产能过剩和需求结
我国移动通信领域虽然仅有中国移动、中国联通和中国电信三大运营商,但相互间的市场竞争却十分激烈。如何保持和扩大市场份额,实现经营业绩的持续增长,是摆在各运营商面前的一大课题。本文从客户新增和保有的双重角度,以新增客户数、市场占有率、客户离网率等经营指标为评判依据,首先分析了zJ市移动公司在传统产品体系内各种客户新增及保有措施的有效性和局限性,说明传统的营销手段只能保持现有的市场份额,无法有效地提升市