论文部分内容阅读
最优潮流是电力系统最基本的优化问题,对整个电力系统的安全、经济、可靠运行都具有重要的现实意义,然而对于这种复杂非线性问题的优化计算,现存的诸多算法都易受到人为因素的限制或高维数的困扰,其优化效果和计算时间往往很难直接应用于电力系统的实际运行控制中。近年来随着人工智能中的强化学习(Reinforcement Learning)的研究和应用日益开展,已成为机器学习领域的研究热点。由于强化学习不要求对模型有精确的认知,通过不断的试错、反馈寻找最优动作,其本质不从目标函数着手,不再人为受到目标函数的限制,因而在一定程度上可以较为理想地解决最优潮流问题,特别是复杂多目标的优化问题。本文首先介绍了强化学习系统的结构和原理,并就其马尔科夫性做出了相应的理论化推导。接着在MATLAB软件中分别编写了强化学习中的Q学习算法和多步回溯Q(λ)学习算法在最优潮流中的应用程序,在较小规模节点系统中直接进行仿真计算,并就简单的单目标函数与其他经典算法进行了比较,验证了其计算结果的有效性,为后续实际应用奠定了基础。在此基础上,本文进而提出了一种更符合实际电网运行特点的多目标函数最优潮流模型,模拟一个负荷不断时变的小型实际电网,根据负荷变化特点,进行典型断面划分,为强化学习的应用提供了实用化的平台。由于强化学习中的多步回溯的Q(λ)学习算法具有良好的滚动优化和在线学习的能力,因而可以直接应用于这类较小规模的电网实时在线优化控制中,其仿真结果显示,计算结果可靠,而且具有明显的速度优势,为实际电网的在线优化决策提供了理论支持。然而随着电力系统规模的扩大,强化学习中的普通算法也面临着和其他人工智能相同的局限性—维数灾难。为了进一步克服“维灾难”问题,本文综合Multi-Agent控制系统和具有良好回溯特性的Q(λ)学习算法,提出了一种新颖的基于复杂电网分区的最优潮流分布式Q(λ)学习算法,该算法无需对最优潮流数学模型进行辅助处理,针对不同的电压等级进行各自分区,形成多个子系统,每个子系统所对应的Agent使用标准的多步Q(λ)算法独立承担各分区子系统的学习任务,通过反馈,统一协作从而形成整体意义上的最优。本论文的研究得到国家自然科学基金面上项目(50807016)、广东省自然科学基金项目(9151064101000049)的资助。