论文部分内容阅读
随着电力现货市场的不断推进,电力供需双方的互动日益频繁,参与需求响应的主体越来越多。就需求响应发布者而言,除了传统情况下,电网公司发布需求响应外,售电商同样有发布需求响应的需求。由于售电商的决策通常会对电力用户的行为产生长期影响,因此有必要研究一种能使得售电商长期收益最大化的方法。本文采用了适合解决需求响应这种序贯决策问题的强化学习算法,并针对售电商与用户的需求响应中状态与动作空间过大导致维数灾以及用户实际场景与训练场景存在随机偏差的问题,改进了相应算法,并进行了仿真实验验证。具体研究内容及成果如下:
建立了用户与售电商两个不同主体多时间尺度的需求响应互动用电模型。针对我国现货市场特点,确定了售电商通过寻求最优补贴价格使得长期收益最大化,用户通过削减负荷使得当次需求响应收益最大化的目标。将售电商参与需求响应的收益函数分为节省的购电成本、减少的售电收益以及付给用户的响应补偿费用。将用户参与需求响应的收益函数分为付出的响应成本、减少的购电成本和获得的响应补贴。考虑了售电商发布的历史补贴价格对用户舒适成本感知的影响,建立了用户舒适成本函数的前后联系,构建出售电商与用户在互动用电中的动态优化收益函数。
使用基于神经网络的强化学习方法解决售电商与用户在需求响应互动用电问题中的维数灾问题。研究了基于值函数的Q-学习强化学习方法,利用用户的需求响应收益函数确定其响应负荷,并将售电商当次需求响应的收益函数转化为Q-学习中的立即奖励函数。针对需求响应问题中状态与动作空间过大导致传统的Q-学习方法产生的维数灾问题,提出使用BP神经网络逼近Q-学习中值函数的方案。仿真验证了使用基于神经网络的强化学习算法能够有效避免维数灾问题,并且可以得到使售电商长期收益最大的策略。
使用多场景强化学习方法解决售电商与用户在需求响应互动用电问题中的场景差异问题。在需求响应过程中,由于实际场景与强化学习的训练场景存在随机偏差,本文在基于神经网络的强化学习方法的基础上,选择使用蒙特卡罗方法进行场景生成,然后分别对每个场景进行强化学习训练,同时提出了将实际场景与训练场景进行对比的方法,以选出与实际场景最相近的训练场景进行策略输出。仿真结果表明,在用户负荷出现较大波动时,使用多场景强化学习方法可以有效输出策略,使售电商在需求响应中能获得更高的长期收益。
建立了用户与售电商两个不同主体多时间尺度的需求响应互动用电模型。针对我国现货市场特点,确定了售电商通过寻求最优补贴价格使得长期收益最大化,用户通过削减负荷使得当次需求响应收益最大化的目标。将售电商参与需求响应的收益函数分为节省的购电成本、减少的售电收益以及付给用户的响应补偿费用。将用户参与需求响应的收益函数分为付出的响应成本、减少的购电成本和获得的响应补贴。考虑了售电商发布的历史补贴价格对用户舒适成本感知的影响,建立了用户舒适成本函数的前后联系,构建出售电商与用户在互动用电中的动态优化收益函数。
使用基于神经网络的强化学习方法解决售电商与用户在需求响应互动用电问题中的维数灾问题。研究了基于值函数的Q-学习强化学习方法,利用用户的需求响应收益函数确定其响应负荷,并将售电商当次需求响应的收益函数转化为Q-学习中的立即奖励函数。针对需求响应问题中状态与动作空间过大导致传统的Q-学习方法产生的维数灾问题,提出使用BP神经网络逼近Q-学习中值函数的方案。仿真验证了使用基于神经网络的强化学习算法能够有效避免维数灾问题,并且可以得到使售电商长期收益最大的策略。
使用多场景强化学习方法解决售电商与用户在需求响应互动用电问题中的场景差异问题。在需求响应过程中,由于实际场景与强化学习的训练场景存在随机偏差,本文在基于神经网络的强化学习方法的基础上,选择使用蒙特卡罗方法进行场景生成,然后分别对每个场景进行强化学习训练,同时提出了将实际场景与训练场景进行对比的方法,以选出与实际场景最相近的训练场景进行策略输出。仿真结果表明,在用户负荷出现较大波动时,使用多场景强化学习方法可以有效输出策略,使售电商在需求响应中能获得更高的长期收益。