基于数据的ADP离线值迭代算法和在线Q学习算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:litianjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自适应动态规划方法是求解非线性系统最优控制的一种有效控制方法。在被控对象的内部动态特性已知的情况下,自适应动态规划的值迭代算法和策略迭代算法都可以用于求解最优控制。将基于数据的控制理论方法和自适应动态规划方法相结合,研究基于数据的自适应动态规划方法,可以在被控对象内部动态特性未知的情况下求解非线性最优控制问题。基于数据离线自适应动态规划方法,是通过采集系统的离线数据,并且在系统建模的基础上实现对系统的优化控制;一般情况下,离线数据相对在线数据能够更加全面地反映出系统运行的内部动态特性,基于数据离线自适应动态规划算法可以得到相对全局的优化控制解;但是,离线数据的更新时间相对在线数据更新时间要长,基于数据离线自适应动态规划算法运行速度相对较慢,并且在系统不确定性和建模误差存在的情况下,其算法的自适应能力也相对较差。基于数据在线自适应动态规划方法,直接利用系统运行的在线数据来实现对系统的优化控制;虽然,在线数据的更新相对离线数据要快,算法的运行速度较快,自适应能力较强,能够达到实时控制的要求,但是在线数据相对离线数据的局部性使得算法容易陷入局部最优。针对上述存在的问题,结合自适应动态规划离在线实现的优缺点,本文提出一种先离线后在线的自适应优化控制方法,即:在被控对象未知的情况下,采用基于数据自适应动态规划离线值迭代算法首先对系统进行离线优化控制,再使用在线Q学习策略迭代算法对离线优化控制进行在线改善。这种先离线后在线的基于数据的自适应优化控制方法,可以充分利用基于数据离线自适应动态规划方法和在线自适应动态规划方法的优点。甘蔗制糖澄清生产过程,是一个复杂的物理化学过程,具有非线性强、滞后大、不确定性强、输入多等特点。传统的基于机理模型的控制理论方法,在对甘蔗制糖澄清生产过程的pH值控制中,由于难于建立系统准确的数学模型而使得其控制效果很不理想。通过采集糖厂澄清工段系统的数据建立糖厂澄清工段系统的模型,本文将提出的方法用于甘蔗制糖澄清生产过程中的中和pH值的优化控制,取得了较好的控制效果,验证了本文所提出算法的有效性。
其他文献
为强化企业内部监督,发挥内部审计在防范重大风险中的作用,本文基于多年实践,从审计视角对国企改革不同阶段的风险进行分析并提出应对措施。
随着绿色建筑研究的深入,从全生命周期(LCA)角度评价建筑成为必然,这就要求对建筑物整个生命周期内各阶段消耗的资源和产生的环境负荷进行全面评估。本文以全生命周期的观点
在新冠肺炎疫情面前,医院床位紧张等暴露了我国医院建筑在设计和布局中的不足.探索建立健全中国特色医院建筑实现平时与疫时功能的应急切换具有非常重要的意义.本文笔者根据
目的探讨聚维酮碘治疗压疮临床效果及护理。方法2008年1月~2011年12月压疮患者110例随机分为观察组及对照组各55例,对两组患者相同护理、积极治疗原发病、改善全身营养状况等
在前期工作中,对受稻瘟菌生理小种103(PO6-6)侵染2、4、8h的抗性水稻品系C101A51(携带Pi2)叶片mRNA构建的cDNA文库进行EST测序,共获得了12,270条高质量的ESTs并产生5,741条独立基
委派财务负责人是企业集团对所属企业监督管理的重要方式。本文从厘清企业集团委派制下的财务负责人经济责任出发,探讨建立相应的审计保障机制,突破常规经济责任审计主要针对
本文地探讨了对工行四川省分行某一储蓄CICS在峰值条件下如何进行CICS参数的调整。该方法在当前工商银行大机延伸工程中以及对将来新的储蓄CICS系统和应用结构的优化均具有一定的参考意义