基于多步回溯Q学习的自动发电控制指令动态优化分配算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:YYXINLEI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单步Q学习在火电占优、机组时延较大的自动发电控制(AGC)功率指令动态优化分配中的应用表现出收敛速度慢等不足而影响最优策略的获取.具有多步预见能力的多步回溯Q学习(Q(λ))显式利用资格迹进行高效回溯操作,能够有效解决火电机组大时滞环节带来的延时回报问题,算法平均收敛时问较Q学习缩短50%以上.算法奖励函数引入调节费用一项,形成多目标动态最优控制.两区域模型及南方电网模型仿真研究分析显示,Q(λ)算法在随机、大负荷扰动的复杂系统环境中有效提高系统控制性能标准(CPS)控制品质和适应性,并且在保证CPS合格
其他文献
以强调人与自然关系的和谐为理论构架的可持续发展观是对传统发展观念的扬弃,该理论与马克思主义唯物史观有着内在逻辑上的一致性。后者为其提供了本体论和认识论基础,而前者也
教师在社会中处于十分重要的地位.教师在培养和造就社会人才方面起着特殊重要的作用.对学生实施全面素质教育就对素质教育的实施者提出了更高的要求.在部分教师中存在着不同
该文从最近最高人民法院的一个司法解释<关于以侵犯姓名的手段侵犯宪法保护公民受教育的基本权利是否应承担责任的批复>来探讨我国司法实践中一个非常敏感性的问题."宪法条款
本文研究了无线传感器网络控制系统的建模、稳定性与控制器设计问题.首先建立一个新的无线传感器网络控制系统模型,然后提出一种用于多个传感器数据融合的时延相关加权均值方
本文利用迭代学习的方法研究了带头结点的多智能体系统的一致性问题.文中分别对单积分多智能体系统和一般的线性多智能体系统提出了迭代学习型的一致性算法.该算法对每一个从
本文研究了观测数据和控制输入数据传输具有有限连续丢包的线性离散随机系统的最优估计问题.利用两个满足Bernoulli分布的随机变量来分别描述从传感器到估值器和从控制器到执
本文对奈达的读者同等反应论进行反思,认为奈达提出的将目的语读者读译文的反应与原文读者读原文的反应作比较是不切实际的,因为文化差异的客观存在决定了同等反应是不可能的
改革开放的30年,也是县域改革与发展艰辛探索、不断开拓、造就辉煌的30年;县域改革具有改革主体的自觉性、运行的目的性、内容的综合性、形式的多样性、方法的科学性等五大特征
为了提高迭代学习控制方法在间歇过程轨迹跟踪问题中的收敛速度,本文将批次间的比例型迭代学习控制与批次内的模型预测控制相结合,提出了一种综合应用方法.首先根据间歇过程