不确定非线性系统的强化学习控制技术研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:linchenxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定非线性系统是一类较难精准控制的系统,由于系统中存在动态复杂不确定性因素,所以单从控制理论技术难以实施,而强化学习具有在未知的环境中与环境进行交互自主学习的能力,能根据系统环境训练出最优控制策略模型,且不需要系统环境信息等先验知识,是解决复杂不确定非线性系统控制的理想在线学习算法。针对实际生活中大量不确定非线性系统难以精准控制的问题,本文研究了一类非线性系统的强化学习控制问题。本文首先研究了强化学习反步控制的基本框架,对系统的不确定性引入强化学习执行网模块,根据李雅普诺夫函数以及系统性能指标函数对系统输出跟踪误差和自适应误差定义出回报状态值函数,推导出执行网训练所需的系统效益误差函数;同时引入强化学习评价网模块,对系统控制中状态值函数设计出评价网模型,通过哈密尔顿函数推导出评价网训练所需的均方残差函数;控制过程中执行网和评价网的权重自适应律通过效应误差函数以及均方残差函数值最小的目标原理进行梯度更新。然后,本文对一类非线性系统进行了反步思想的控制设计,通过基于李雅普诺夫的稳定性推导分析以及系统的反步控制设计,进一步设计推导出闭环系统每个子系统方程的反步控制律和系统各自适应参数更新律,同时结合强化学习基本设计框架,提出了一种非线性系统的强化学习反步控制法。接着,本文研究了一类具有匹配或非匹配干扰的不确定非线性系统的强化学习反步控制,对系统的匹配和非匹配干扰项采用二阶HDOB以及STDO干扰观测器对其进行逼近补偿,并基于非线性系统的强化学习反步控制,提出了一种不确定非线性系统的强化学习抗扰动反步控制法。最后,本文研究了一类近似利普西茨非线性系统的强化学习控制,基于近似利普希茨理论以及强化学习反步控制,提出了一种近似利普西茨非线性系统的强化学习反步控制法。为了验证本文所提控制方法的有效可行性,本文针对多类非线性系统,对基于强化学习和反步控制的智能控制方法进行了仿真验证。仿真结果表明了系统的各自适应参数都稳定有界收敛,并验证了所提控制方法具有自适应拟合复杂不确定性因素的能力,同时证明了该强化学习控制系统在不确定自适应环境下实现跟踪误差稳定不变方面更具有效性和优越性。
其他文献
人力资本积累在提高家庭收入、促进经济增长和增进社会福利等方面发挥着重要作用。人力资本既包括正规教育状况和在职培训的技能水平,还包括身心健康状况。健康状况通过影响劳动生产效率、工作时间等影响社会经济的发展。但是,在早期的研究中,学者们往往简单地把人力资本归结为教育,把关注点主要放在了教育人力资本上。长期以来缺乏对健康人力资本的研究。随着经济的不断发展,在满足日常生活所需以后,人们更加注重个人的健康状
学位
在我国资本市场的早期,监管部门一般采用计划发行方式并实施审批制对发行额度进行控制,因此我国许多集团企业为了获得上市的机会,便将部分优质资产进行剥离从而分拆上市。但随着我国资本市场的发展,分拆上市的弊端也逐渐显现出来,因而2003年我国证监会、国资委等便开始推动我国企业整体上市。随着国内整体上市企业数量逐渐增加,相关研究逐渐充分,整体上市的模式也更加细分。而从现有整体上市模式的选择来看,多数企业倾向
学位
目的 了解中国老年人抑郁及日常生活能力现状,并分析两者的联系。方法 选取2018年7月10日—9月13日中国健康与养老追踪调查中60岁及以上老年人,运用χ~2检验和logistic回归分析模型探索日常生活能力对老年人抑郁的影响。结果 中国老年人抑郁检出率为43.82%;基本日常生活自理能力(basic activity of daily living, BADL)受损率为8.78%;工具性日常生活
期刊
<正>1 病例资料2021年5月至2021年8月在中国医科大学附属盛京医院PICU住院、确诊为人博卡病毒1型(HBoV1)重症肺炎的患儿6例,主要临床资料见表1。男、女各3例,年龄1岁1月至4岁。例4为足月低出生体重儿(出生体重1 640 g),生后生长发育落后于同龄儿;例5为早产儿(胎龄27周)、小于胎龄儿(出生体重870 g),合并支气管肺发育不良。6例患儿的发热持续时间为4~13 d, 热峰
期刊
报纸
目的:探究复温时给予盐酸消旋山莨菪碱注射液对体外循环下二尖瓣置换术患者围麻醉期改善微循环的有效性。方法:择期行单纯二尖瓣置换术患者64例,年龄21~75岁,ASA分级II或III级,随机分为A组和C组,各32例。A组术中开始复温时给予盐酸消旋山莨菪碱注射液(654-2)40mg加入体外循环预充液中随机转入体内,C组给予等量生理盐水。记录术中生命体征,乳酸值,动静脉血氧分压差,尿量,咽温,后并行时间
学位
目的:本课题以肩袖损伤患者为研究对象,旨在通过关节镜下肩袖修补术后配合口服肩痹汤治疗肩袖损伤(风寒湿痹型),通过记录并分析患肢肩关节的VAS评分、UCLA评分、ASES评分、PGE2等指标来评价该方案的可行性。方法:收集2021.01-2021.12于我院骨伤科住院部风寒湿痹型肩袖损伤患者40例。按照随机分组法将患者随机分为试验组20例,对照组20例。两组均在关节镜下行肩袖修补术,术后对照组患者采
学位
背景:随着社会节奏越来越快,人们的生活作息习惯不佳导致脊柱疾病增多,尤其以腰椎间盘突出症(Lumbar Disc Herniation,LDH)为著,而且该病呈现出越来越年轻化的趋势。同时随着物质生活的丰富,人们对腰椎间盘突出症的治疗要求越来越高,从以前的单纯解除腰腿痛,到现在的既要解决腰腿痛的问题,又要符合保证安全、创伤小、住院时间短、对身体整体影响小等要求。传统手术虽然技术成熟,手术流程固定,
学位
股权激励起源于美国,在西方社会盛行六十多年后才传入中国。20世纪90年代,国企改革逐步深化,股权激励被引入我国,其最初的表现形式为员工持股计划。但是,由于当时我国相关制度不够完善,内外部多种因素限制了股权激励的进一步发展,直至2006年,与股权激励有关的制度开始不断地修订与完善,渐渐地有部分上市公司开始尝试通过股权激励完善企业的薪酬制度,提升经营业绩以及防止人才流失等。但是,由于在此之前没有充足的
学位
高标准农田建设为推进农业现代化、保障国家粮食安全奠定了坚实基础。中国已全面开启农业农村现代化建设新征程,然而,高标准农田建设与我国农业现代化未来实现目标相比仍有差距,如建设标准、质量不够高,配套设施不完善、管护机制不健全,建设投资标准不高、资金来源渠道不宽等;对比美国、德国、日本农业现代化进程中农田建设的历史经验教训,中国在适度规模化、机械化水平、农田灌溉、生态耕作等方面仍有不足。应瞄准中国农业现
期刊