Markov控制过程基于单个样本轨道的在线优化算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:adfda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Markov性能势理论基础上,研究了Markov控制过程的性能优化算法.不同于传统的基于计算的方法,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度,以寻找最优(或次优)随机平稳策略.由于可根据不同实际系统的特征来选择适当的算法参数,因此它能满足不同实际工程系统在线优化的需要.最后简要分析了这些算法在一个无限长的样本轨道上以概率1的收敛性,并给出了一个三-状态受控Markov过程的数值实例.
其他文献
归纳并证明了机器人间接自适应模糊控制的几个重要特性并阐述了其用于多关节机器人跟踪控制的策略.对一个具有远程独立电机驱动的双连杆机械臂的仿真结果证实了可行性.
"多时滞系统H∞鲁棒控制"一文给出了多时滞系统满足H∞性能指标的充分条件及带不确定性Riccati不等式具有鲁棒性的充要条件,并在此基础上提出了带不确定性多时滞被控对象经状
利用随机过程理论研究了遗忘因子最小二乘法(FFLS)的有界收敛性,给出了参数估计误差的上界,分析表明:i)对于时不变确定性系统;FFLS算法产生的参数估计以指数速度收敛于真参数;ii)对
【正】党的第十四届六中全会于1996年10月在北京召开。这次会议的主要任务,是审议并通过了《中共中央关于加强社会主义精神文明建设若干重要问题的决议》。这是我党历史上第
讨论前馈结构系统x^.1=Ax1+g(x2,u),x^.2=f(x2,u)的反馈镇定,应用前向设计方法给出了当系统x^.2=f(x2,u)可以反馈镇定的时候,整个系统反馈镇定的条件,在设计中实现了输入-状态增
《国家中长期教育改革和发展规划纲要(2010-2020年)》实施几年来,我国教育改革和发展都取得了骄人的成就,尤其是普及义务教育的成果,更是令世界刮目相看。在高等教育领域,创新
针对控制网络中固有的随机传输延迟,提出了一种新颖的控制模式,实现了对存在多步随机传输延迟的网络控制系统的数学建模,基于该模型,利用Markov链理论,得到了满足给定性能标的随机
许多球员挥杆都趋向于更快和更稳。在用长杆进行高挥杆时尤其是这样。掌握正确的挥杆速度,可以从双脚并拢练习挥杆开始。
给出了单输入非线性系统的分步变换伪线性化方法及其算法.首先将原系统变换为标准型.利用[1]中的算法,可以获得将标准型变换为伪标准型的变换阵T.在第一步变换下,原系统的部分状