论文部分内容阅读
论文采用BP网络构建的Actor-Critic强化学习算法,解决了受扰单级倒立摆的平衡控制问题。控制算法包括Actor和Critic两个网络,其中Actor网络利用当前系统状态获得基于概率的输出动作,Critic网络得到当前动作对应的评价指标。所提出的强化学习方法利用倒立摆系统的输入输出采样数据进行迭代学习,不需要系统模型的信息。经过仿真实验验证,该算法能有效地平衡倒立摆系统并且具有一定的抗干扰能力。