论文部分内容阅读
在NERC正式推出了CPS标准后,研究适用于CPS标准下的AGC最优控制策略已经成为了一个热点的课题。大量研究者提出了各种不同的自动发电控制策略,如经典的控制策略,自适应控制策略,及现代智能的控制策略等。CPS控制工程实用系统多采用的PI结构,难以满足AGC控制系统对实时性、高适应性、鲁棒性的要求。强化学习是一种重要的人工智能控制方法,按照策略更新原理的不同可以分为两种即离策略强化学习算法和在策略强化学习算法。以Q学习为代表的离策略的强化学习算法设计的CPS控制器采用假设动作更新值函数估计值,在电力系统某一时刻出现较大扰动时,离策略CPS控制器往往将导致系统有一段―恢复‖时间,系统被置于―偏离‖状态。本文研究了将在策略强化学习算法SARSA算法和SARSA(λ)算法引入互联电网AGC控制,并对相关问题进行了剖析。本文研究了将SARSA算法引入互联电网AGC控制,编写了SARSA学习算法,设计了基于SARSA学习的CPS控制器,详尽分析了控制器的5个构成部分环境状态集S、奖励函数R、概率函数P,及动作集A以及值函数Q。该方法不依赖任何系统模型和先验知识并通过试错机理寻求最优控制策略。以CPS和ACE瞬时滚动值为基础设计了立即奖励函数,并对比分析了两种不同奖励机制下,SARSA控制器的控制性能,通Matlab/simulink仿真平台搭建标准两区域的模型进行了仿真分析。在单步的SARSA算法的基础上,进一步的编写了具有多步回溯功能的SARSA(λ)强化学习算法,并设计了相应的CPS控制器。算法中资格迹的融入很好的解决了二次调频过程的延时问题,在火电机组占优的南方电网模型中,仍具有很好控制效果,体现了智能强化学习算法的适应性和鲁棒性。模仿学习取代预学习SARSA(λ)控制器的设计,为强化学习在预学习阶段盲目试错而不能实际投入控制提供了一种解决方案。最后本文针对强化学习离散的动作调节指令不能满足实际控制需求以及将动作空间划分过于缜密而导致的强化学习维数灾问题,提出了一种基于函数逼近的输出连续指令的解决方法。本文的研究受到了国家高技术研究发展计划(863计划)(2012AA050209),国家自然科学基金项目(51177051);中央高校基本业务费重点项目(2012ZZ0020)的资助。