线性随机系统状态调节器问题的策略迭代算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:fuuxia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于能够准确地刻画许多实际系统,线性随机系统一直是自动控制和数学应用领域研究的热点。对于这类系统的最优控制问题,状态调节器问题的研究因其易于实现且适应场景广而得到了广泛的关注。本文以一类具有乘性噪声的线性随机系统为对象,研究了这类系统状态调节器问题的策略迭代算法,通过设计四种策略迭代算法,为解决这类随机系统的状态调节器问题提供新途径。本文的具体工作如下:针对具有乘性噪声的线性随机系统,提出了一种改进的加权迭代算法。由于这类系统的状态调节器问题等价于随机代数Riccati方程(SAREs)存在唯一正定解,因此文中基于部分代换的思想,以随机Lyapunov方程作为基本迭代式,提出了一种改进的加权迭代算法来获得SAREs的数值解。算法采用一个可调参数来控制参数的更新率,从而改变算法的收敛速度。根据线性随机系统的稳定性与随机Lyapunov方程唯一正定解之间的等价关系,讨论了执行这种算法时解序列的单调性和有界性,从而证明了解序列最终收敛于SAREs的唯一正定解。为了减少对系统模型参数的依赖,提出了一种基于on-policy的策略迭代算法。在研究随机系统的状态调节器问题时将不再局限于求解SAREs,而是专注于性能函数的拟合。该算法基于强化学习中on-policy的思想,通过行为策略获得训练数据用于驱动目标策略的更新,从而实现部分模型参数自由。此外,该算法被证明等价于提出的改进的加权迭代算法,具有相同的收敛特性。为了克服on-policy算法在执行过程中可能遇到的数据失效问题,提出了一种基于off-policy的策略迭代算法。该算法同样实现了部分模型参数自由,且训练数据可以重复使用,在计算速度上具有明显优势。另外,在on-policy的策略迭代算法的基础上,通过在策略更新步骤采用off-policy技术,提出了一种改进的策略迭代算法,实现了模型参数自由。本文对上述四种策略迭代算法的收敛性进行了分析和证明,并通过数值仿真实例验证了算法的有效性。
其他文献
菜农过量施用化肥,致使作物品质变差、地力恶化、环境污染严重,极大地制约了设施蔬菜产业的可持续发展。近年来,塑料大棚樱桃番茄种植面积逐年增加,磷作为三大元素之一,确定樱桃番茄生产中最佳施用量并有效管理土壤磷养分已成为樱桃番茄生产中亟待解决的关键问题之一。本试验设置不同磷肥水平,分别为不施磷肥P0(0 g/株)、减施磷肥P15(15 g/株)、常规施磷P30(30g/株)和增施磷肥P150(150 g
学位
国企在人才引进方面,坚持以人为本,充分结合国企实际情况;积极和相关高校、组织部门、研究院所、知名企业等单位进行交流探索,在人才引进方面进行模式合作创新,大胆探索如“3+1”“专职副总”“企业能人”“特聘顾问”等模式;积极探索人力资源管理创新模式,促进国企更快更好发展。
期刊
检定电动汽车充电设施时,通常采用有线传输方式传输电能脉冲信号。本文基于ESP32微处理器,设计一套电能脉冲无线(WiFi)传输装置,可通过无线方式将电动汽车充电设备的电能脉冲发送至检定装置,从而完成工作误差等项目的检定工作。同时,将有线、无线两种传输方式的检定结果进行比对,结果证明:其归一化偏差均满足要求,且无线传输装置可显著提高检定工作效率。
期刊
辣椒属于喜温作物,其最适生长温度为20~25℃,高于35℃就会产生热害。在设施条件下,辣椒越夏栽培过程中经常会出现30℃以上的高温。在这段时间,辣椒植株不仅坐果率降低,而且伴随出现落花、落果、落叶,极大地影响设施辣椒越夏栽培的生产和效益。花粉是完成授粉受精的关键,掌握在高温胁迫下辣椒花粉生理生化的变化规律,可为设施辣椒生产环境调控提供理论依据,为挖掘耐热辣椒资源,阐明辣椒耐热机理奠定基础。本研究选
学位
土壤盐碱化是制约设施蔬菜产业可持续发展的瓶颈。采用轮作间作等栽培措施,能有效修复设施土壤盐渍化。而采用植物修复手段治理盐碱土壤的前提,是选择适宜的植物或作物。苦槐(Sophora alopecuroides)是一种香料植物,具有较高的耐盐碱能力,既有较高经济价值,又是设施农业轮作间作、修复土壤的良好植物材料。然而,目前对苦槐高耐盐碱的生理与分子机理尚不清楚。本论文研究以苦槐为材料,旨在探明其耐盐碱
学位
‘红颜’草莓外观品质好,营养物质丰富,富含黄酮等多种生物活性物质,抗氧化能力强,是山西省晋中市太谷区设施大棚草莓的主栽品种之一。常规繁殖方式易积累病毒,导致果实产量降低和品质下降。利用茎尖组织培养技术,能在较短时间内提供大量整齐的种苗。但仍存在培养时间长、步骤多、易污染等问题。本研究以当年生‘红颜’草莓为试验材料,通过探究茎尖不同大小、匍匐茎采集时间、外植体不同灭菌时间、培养基不同激素浓度配比、转
学位
随着深度神经网络的不断发展,目标检测算法从基于传统特征工程发展到基于深度神经网络,现有工作在提高模型推理的实时性上已经取得非常大进展。但是目标检测模型在移动设备和边缘设备上的部署方面仍然有较大的改进空间。现有工作已经从主干网络和解码器对模型轻量化提拱了许多有效的改进措施。在已有目标检测的编码器方面的研究上,主要基于多尺度信息融合和分治的思想设计了MIMO(Multiple In Multiple
学位
在信息安全需求日益增长的今天,生物特征识别技术在学术界及工业界的广泛关注下得到了巨大的发展。在众多的生物特征模态当中,指部纹理以及指静脉数据以其安全性高以及用户亲和度高等优势得到了研究者越来越多的关注。然而,指部特征采集设备的高自由度在为用户带来友好使用体验的同时,其采集过程中手指轴向旋转所造成的纹理变化问题以及场景光照变化问题为后续的特征认证任务提出了挑战。在本文中,针对上述问题,提出了下述解决
学位
草莓(Fragaria×ananassa Duch.),蔷薇科草莓属,其色泽鲜艳,具有丰富的人体所需维生素及矿物质元素而备受人们喜爱。山西省草莓产业基础较为薄弱,但近年草莓设施生产呈现上升趋势。目前针对山西黄土高原气候条件的设施草莓栽培的相关研究并不多,因此本研究以品种比较和栽培模式比较试验为基础,分析高架和垄沟2种栽培模式下不同品种草莓的植株表型、果实品质及光合特性表现情况,探索适宜山西省草莓种
学位
目前,我国已经从高速增长阶段步入了高质量发展阶段,伴随着“双碳”目标的提出,产业园区的绿色转型发展必将迎来新的发展阶段。农业作为经济中的重要载体,农业的碳中和规划显得格外重要。为了如期实现2030年前碳达峰、2060年前碳中和的愿景,农业园区必须协同时代经济发展要求,同其他产业一同向着碳中和目标进发。本文将依据碳中和的内涵,从“核算-减碳-增汇”三个步骤出发,对特定案例的碳源结构出发,对园区的碳排
学位