多Agent系统连续时间Option算法

来源 :第29届中国控制会议 | 被引量 : 0次 | 上传用户:victor0901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统用于解决多Agent系统的分层强化学习(Hierachical Reinforcement Learning,HRL),基本上是建立在离散时间多Agent半马尔科夫决策过程(Discrete Time Multi-Agent Semi-Markov Decision Processes,DT-MSMDP)和折扣准则基础上,无法解决连续时间多Agent无穷任务问题。因此本文在连续时间多Agent半马尔科夫决策过程(Continue Time Multi-Agent Semi-Markov Decision Processes,CT-MSMDP)框架下,结合现有的Option算法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均或折扣性能准则的多Agent连续时间Option分层强化学习模型和学习优化算法,用于解决连续时间多Agent无穷任务问题。最后通过以多Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有优化精度高、优化速度快和节约存储空间的优势。
其他文献
会议
会议
会议
The layered oxide LiNixMnyCozO2 (x+y+z=1) is a promising cathode material for the rechargeable lithium ion batteries.The valence state of the freshly prepared LiNixMnyCozO2 as reported by Shaju et al.
会议
会议
网络化控制系统已经成为当前重要的控制方法,但网络时延也同时增加了控制系统的设计难度,针对网络化常规PID控制的鲁棒性不佳及模糊控制存在稳态误差的问题,本文设计了基于模糊PID控制的网络化系统,并利用TrueTime仿真工具箱研究了电站网络化过热汽温串级控制系统,结果表明其在不同丢包率及不同干扰节点带宽占用率影响下的鲁棒性明显优于常规PID和模糊控制。
本文在阐述无轴承同步磁阻电机工作机理及建立数学模型基础上,提出采用最小二乘支持向量机(LS-SVM)逆系统方法对其进行解耦控制,构建了无轴承同步磁阻电机连续系统基于LS-SVM的逆模型,将逆模型与无轴承同步磁阻电机原系统进行串联,从而将复杂的非线性多变量原系统解耦成3个相对独立的单输入单输出伪线性子系统,设计了闭环控制器,并对控制系统进行仿真试验。理论研究和仿真试验表明:采用最小二乘支持向量机(L
本文针对移动台定位中非视距传播误差问题的深入研究,分析了误差产生的原因以及处理方法,提出了一种基于间距的加权处理算法,通过仿真实验表明该算法在抑制非视距传播误差方面可以起到一定的抑制作用。
针对具有不确定性参数和强干扰的控制对象,提出一种积分模糊滑模控制策略。引入新的分解方法,克服了传统滑模变结构控制策略中对被控对象数学模型形式的严格约束,同时在切换函数中加入积分项,消除了需要被跟踪信号导数已知的假设。利用模糊规则,估计出系统中未知的不确定因素。用一个合适的饱和函数替代切换函数中的符号函数,有效的减弱了系统颤振。采用此控制方法,对变速风力发电机组的发电机转速进行跟踪控制。仿真结果显示