在策略强化学习算法在互联电网AGC最优控制中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jsrgchf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在NERC正式推出了CPS标准后,研究适用于CPS标准下的AGC最优控制策略已经成为了一个热点的课题。大量研究者提出了各种不同的自动发电控制策略,如经典的控制策略,自适应控制策略,及现代智能的控制策略等。CPS控制工程实用系统多采用的PI结构,难以满足AGC控制系统对实时性、高适应性、鲁棒性的要求。强化学习是一种重要的人工智能控制方法,按照策略更新原理的不同可以分为两种即离策略强化学习算法和在策略强化学习算法。以Q学习为代表的离策略的强化学习算法设计的CPS控制器采用假设动作更新值函数估计值,在电力系统某一时刻出现较大扰动时,离策略CPS控制器往往将导致系统有一段―恢复‖时间,系统被置于―偏离‖状态。本文研究了将在策略强化学习算法SARSA算法和SARSA(λ)算法引入互联电网AGC控制,并对相关问题进行了剖析。本文研究了将SARSA算法引入互联电网AGC控制,编写了SARSA学习算法,设计了基于SARSA学习的CPS控制器,详尽分析了控制器的5个构成部分环境状态集S、奖励函数R、概率函数P,及动作集A以及值函数Q。该方法不依赖任何系统模型和先验知识并通过试错机理寻求最优控制策略。以CPS和ACE瞬时滚动值为基础设计了立即奖励函数,并对比分析了两种不同奖励机制下,SARSA控制器的控制性能,通Matlab/simulink仿真平台搭建标准两区域的模型进行了仿真分析。在单步的SARSA算法的基础上,进一步的编写了具有多步回溯功能的SARSA(λ)强化学习算法,并设计了相应的CPS控制器。算法中资格迹的融入很好的解决了二次调频过程的延时问题,在火电机组占优的南方电网模型中,仍具有很好控制效果,体现了智能强化学习算法的适应性和鲁棒性。模仿学习取代预学习SARSA(λ)控制器的设计,为强化学习在预学习阶段盲目试错而不能实际投入控制提供了一种解决方案。最后本文针对强化学习离散的动作调节指令不能满足实际控制需求以及将动作空间划分过于缜密而导致的强化学习维数灾问题,提出了一种基于函数逼近的输出连续指令的解决方法。本文的研究受到了国家高技术研究发展计划(863计划)(2012AA050209),国家自然科学基金项目(51177051);中央高校基本业务费重点项目(2012ZZ0020)的资助。
其他文献
肿瘤(Tumor)是机体在各种致癌因素作用下,局部组织的某一个细胞在基因水平上失去对其生长的正常调控,导致其克隆性异常增生而形成的异常病变。恶性肿瘤是当前严重影响人类健康、
目的 应用MRI观察苯丙酮尿症 (phenylketonuria,PKU)的脑髓鞘化表现 ,并探讨脑髓鞘化形成异常与抽搐发作及智力低下之间的关系。方法 将 30例未经治疗的PKU患者按临床有无
本文围绕医药企业竞争力评价问题,在“中国经营报企业竞争力监测体系”的基础上,利用层次分析法重新确定了适用于医药企业的指标权重,并选取了国内30家医药上市公司进行了医药企
本文首先介绍了有机颜料的市场生产、应用、类型和发展趋势情况,然后按色调顺序:绿—兰—紫—红—橙—黄,探讨了一些汽车涂料用高档有机颜料的现状及发展趋势。
在物流研究领域,提供高质量和及时的物流操作模型始终是一个难题。运输易腐物品使物流问题更具挑战性,它需要低温、快速、易监管、能追溯和成本低的特性。为此,本文结合无线
台风破坏力惊人,为我国建筑工程造成巨大威胁。在建工程,特别是沿海地区的在建工程,必须重视台风的影响,并做好防台风措施,以免造成人员伤亡和经济损失。项目部要制定相应的
雄激素性脱发(androgenetic alopecia,AGA)是皮肤科的常见病与多发病,雄激素性脱发的药物综合治疗及手术治疗的部分患者取得了一定的效果,但都存在副作用大、患者依从性差等
回顾过去的2009年,是极不平凡的一年,金融风暴与经济危机席卷全球。不管是发达国家还是发展中的国家,随着事态的发展,终济效益已受到了影响。纵观2009年1~10月,在享有刚性需求之誉
公司经营历史悠久,专门从事蔬菜良种、花卉种子、牧草种子及草坪种子生产经营。三千种业将为建设森林重庆、宜居重庆、环保重庆、秀美重庆而努力!
期刊