论文部分内容阅读
在电力系统日常运行中,经常会遇到机组组合、无功优化等非线性规划问题。对于此类问题,常用的解决方法有经典数学方法和人工智能算法(artificial intelligence,AI)两大类。然而,由于系统较强的非线性、目标函数以及约束条件的不连续性、变量的离散性、以及存在多个局部最优解等问题,牛顿法、二次规划、内点法等经典优化方法在求解此类问题时往往效果不太理想,容易陷入局部最优。另一方面,人工蜂群算法、蚁群算法、粒子群、遗传算法等传统AI算法对具体数学模型的依赖程度较低,适合处理非线性和离散性优化问题,已被广泛应用于电力系统的各类优化问题。但是,上述AI算法均没有知识迁移的能力,每一次优化任务都是孤立的,在执行新的任务时必须重新初始化,不能较好地利用过去的优化信息,这就导致算法的寻优时间过长,难以满足大规模电力系统的快速优化需求。为此,本文提出了一类全新的迁移强化学习(transfer reinforcement learning,TRL)优化算法,用于大规模电力系统优化问题的快速求解。该算法利用集体智慧对问题环境进行高效的探索和利用,更新其集体共有的知识矩阵,并将历史源任务的最优知识矩阵存储起来,用于提炼新优化任务的最优知识矩阵,从而达到加快寻优速度的作用。对于大规模优化问题而言,首先将整个系统划分成若干个区域子系统,上层利用博弈论及一致性理论实现不同子系统之间的协调,底层利用TRL或一致性理论来快速获得子系统内部的最优解。总的来说,本文将不断逐步形成迁移强化学习的优化算法体系,用于解决电力系统的各类优化问题,如下:1)提出连续单任务迁移强化学习的集中式优化算法,采用联系记忆方式解决多维变量知识矩阵的维数灾难问题,利用蚁群及蜂群的集体智慧加快知识矩阵的更新速度,把前一个优化任务的最优知识矩阵保存下来,用于下一优化新任务的知识指导,可以有效避免盲目的随机搜索,提高寻优速度,最后利用电力系统经典无功优化问题进行性能验证。2)提出多任务线性迁移强化学习的分散式优化算法,利用二进制联系记忆解决连续控制变量的优化问题,并采用模仿学习加速知识初始形成阶段的探索与利用过程,并采用一致性理论实现智能体之间的合作交互协同学习,建立含多个历史任务的源任务库,根据新任务与源任务之间的相关性矩阵,实现高效的最优知识矩阵提炼,最后分别利用集中式以及分散式的自动发电控制(automatic generation control,AGC)功率动态分配优化模型对单智能体及多智能体的多任务线性迁移强化学习算法进行性能测试。3)提出多任务非线性迁移强化学习的分散式优化算法,在不同智能体之间分别引入纳什均衡和Stackelberg博弈协调机制,并采用极限学习机以及深度置信网络替代有限规模的源任务库,降低最优知识矩阵存储量,提高新任务最优知识矩阵的逼近精度,最后利用分散式最优碳能复合流问题以及电力系统供需互动实时调度问题进行仿真性能验证。