基于强化学习的JLQ模型的直接自适应最优控制

来源 :控制与决策 | 被引量 : 0次 | 上传用户:shingang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.
其他文献
<正>法国非常重视招聘工作。法国政府早就制定有招聘法规并设有非盈利性的公共招聘机构,民间也有招聘事务所。巴黎第九大学还设有招聘专业,专为招聘机构和企业人事部门培养、
本试验选用丙酸钙(水平为0.075%、0.150%、0.225%、0.300%)、苯甲酸钠(水平为0.075%、0.150%、0.225%、0.300%)、山梨酸钾(水平为0.025%、0.050%、0.075%、0.100%)、甘油(水
<正>癌症疼痛是癌症患者常见的症状之一,50%~80%的癌症患者有不同程度的疼痛,晚期患者高达60%~90%,约30%的患者临终前疼痛得不到缓解~[1]。疼痛不但限制活动、降低食欲,在心
随着人们对医疗健康服务的要求越来越高,基于移动互联网,结合新一代信息技术的优化就医服务模式成为提高患者就医便利性的重要途径。文章分析了当前医院移动互联网应用现状,
传统的化工工程对环境造成很大污染,在当今倡导绿色发展的主流下,对化工行业形成巨大挑战,为了改善化工工程工艺,使绿色化工技术真正的在化工工程工艺中有效的应用,因此要做
提出一种多变量混沌时间序列相空间重构的条件熵扩维方法.首先使用互信息法求解每个变量的时间延迟,其次按条件熵最大原则逐步扩展相空间的嵌入维数,使得重构坐标从低维到高
2019年2月18日,中共中央、国务院正式发布《粤港澳大湾区发展规划纲要》(以下简称《纲要》),标志着粤港澳大湾区建设进入全新阶段。粤港澳大湾区建设是习近平总书记亲自谋划、部
报纸
目的:探讨供应室护理职业暴露与防护措施。方法:对供应室存在的风险因素进行分析,并制定有效的防护措施。结果:通过制定有针对性的防护措施,明显降低了供应室职业暴露事件的
少儿舞蹈教学作为舞蹈教学的一个分支在近些年引起了广泛的关注,在舞蹈教育学的学科背景下更显得尤为突出。舞蹈作为成人舞蹈的学前教育阶段对未来舞蹈人才的建设起着决定的
使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值