基于强化学习的JLQ模型的直接自适应最优控制

来源 :控制与决策 | 被引量 : 0次 | 上传用户：shingang

【摘要】

：

研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变

【作者】

：

徐琰恺陈曦

【机构】

：

清华大学自动化系,清华大学智能与网络化系统研究中心,

【出处】

：

控制与决策

【发表日期】

：

2008年12期

【关键词】

：

Markov跳变线性系统策略迭代 Q函数直接自适应最优控制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.

其他文献

法国企业的招聘体系方式

<正>法国非常重视招聘工作。法国政府早就制定有招聘法规并设有非盈利性的公共招聘机构,民间也有招聘事务所。巴黎第九大学还设有招聘专业,专为招聘机构和企业人事部门培养、

期刊

招聘体系委托招聘招聘者内部招聘

防霉剂的不同配比以及饲料水分含量对防霉效果的影响

本试验选用丙酸钙(水平为0.075%、0.150%、0.225%、0.300%)、苯甲酸钠(水平为0.075%、0.150%、0.225%、0.300%)、山梨酸钾(水平为0.025%、0.050%、0.075%、0.100%)、甘油(水

期刊

关键字防霉剂水分含量最佳配比防霉效果

硬膜外埋入式输注系统联合自控镇痛泵治疗顽固性癌痛患者的护理

<正>癌症疼痛是癌症患者常见的症状之一,50%~80%的癌症患者有不同程度的疼痛,晚期患者高达60%~90%,约30%的患者临终前疼痛得不到缓解~[1]。疼痛不但限制活动、降低食欲,在心

期刊

硬膜外埋入式输注系统自控镇痛泵顽固性癌痛护理

基于移动互联网的优化就医服务模式实践研究

随着人们对医疗健康服务的要求越来越高,基于移动互联网,结合新一代信息技术的优化就医服务模式成为提高患者就医便利性的重要途径。文章分析了当前医院移动互联网应用现状,

期刊

移动互联网就医服务工作效率患者满意度

绿色化工环保技术与环境治理的关系

传统的化工工程对环境造成很大污染,在当今倡导绿色发展的主流下,对化工行业形成巨大挑战,为了改善化工工程工艺,使绿色化工技术真正的在化工工程工艺中有效的应用,因此要做

期刊

绿色化工环保技术环境治理

基于条件熵扩维的多变量混沌时间序列相空间重构

提出一种多变量混沌时间序列相空间重构的条件熵扩维方法.首先使用互信息法求解每个变量的时间延迟,其次按条件熵最大原则逐步扩展相空间的嵌入维数,使得重构坐标从低维到高

期刊

多变量混沌时间序列相空间重构条件熵神经网络预测

人文湾区建设浅说

2019年2月18日，中共中央、国务院正式发布《粤港澳大湾区发展规划纲要》（以下简称《纲要》），标志着粤港澳大湾区建设进入全新阶段。粤港澳大湾区建设是习近平总书记亲自谋划、部

报纸

供应室护理职业暴露与防护措施探究

目的:探讨供应室护理职业暴露与防护措施。方法:对供应室存在的风险因素进行分析,并制定有效的防护措施。结果:通过制定有针对性的防护措施,明显降低了供应室职业暴露事件的

期刊

供应室护理职业暴露防护

少儿舞蹈教学中的美育培养与方法论初探

少儿舞蹈教学作为舞蹈教学的一个分支在近些年引起了广泛的关注,在舞蹈教育学的学科背景下更显得尤为突出。舞蹈作为成人舞蹈的学前教育阶段对未来舞蹈人才的建设起着决定的

期刊

学前教育教育规律美育艺术感知力

连续状态自适应离散化基于K-均值聚类的强化学习方法

使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值

期刊

强化学习K-均值聚类算法Sarsa学习连续状态自适应离散化

基于强化学习的JLQ模型的直接自适应最优控制

与本文相关的学术论文