Markov控制过程基于单个样本轨道的在线优化算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户：adfda

【摘要】

：

在Markov性能势理论基础上,研究了Markov控制过程的性能优化算法.不同于传统的基于计算的方法,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度,以寻找

【作者】

：

唐昊奚宏生殷保群

【机构】

：

中国科学技术大学自动化系

【出处】

：

控制理论与应用

【发表日期】

：

2002年6期

【关键词】

：

MARKOV控制过程单个样本轨道在线优化算法离散事件动态系统随机平稳策略 Markov control processes Markov perfor

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在Markov性能势理论基础上,研究了Markov控制过程的性能优化算法.不同于传统的基于计算的方法,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度,以寻找最优(或次优)随机平稳策略.由于可根据不同实际系统的特征来选择适当的算法参数,因此它能满足不同实际工程系统在线优化的需要.最后简要分析了这些算法在一个无限长的样本轨道上以概率1的收敛性,并给出了一个三-状态受控Markov过程的数值实例.

其他文献

机器人间接自适应模糊控制器及其应用

归纳并证明了机器人间接自适应模糊控制的几个重要特性并阐述了其用于多关节机器人跟踪控制的策略.对一个具有远程独立电机驱动的双连杆机械臂的仿真结果证实了可行性.

期刊

机器人自适应模糊控制器模糊控制轨迹跟踪智能控制uniform ultimate boundedness fuzzy control manipul

关于“多时滞系统H∞鲁棒控制”一文的商榷

"多时滞系统H∞鲁棒控制"一文给出了多时滞系统满足H∞性能指标的充分条件及带不确定性Riccati不等式具有鲁棒性的充要条件,并在此基础上提出了带不确定性多时滞被控对象经状

期刊

时滞系统H∞鲁棒控制鲁棒性RICCATI不等式不确定性multi-time delay uncertainty Riccati inequalit

时变系统遗忘因子最小二乘法的有界性收敛性

利用随机过程理论研究了遗忘因子最小二乘法（FFLS）的有界收敛性，给出了参数估计误差的上界，分析表明：i)对于时不变确定性系统；FFLS算法产生的参数估计以指数速度收敛于真参数；ii)对

期刊

时变系统遗忘因子最小二乘法有界性收敛性参数估计随机过程理论time_varying system identification paramete

学习六中全会决议立足本职,搞好精神文明建设

【正】党的第十四届六中全会于1996年10月在北京召开。这次会议的主要任务,是审议并通过了《中共中央关于加强社会主义精神文明建设若干重要问题的决议》。这是我党历史上第

期刊

精神文明建设社会主义精神文明十四届六中全会立足本职文明建设工作社会主义现代化决议本职工作重要历史时期管理育人

简单前馈结构控制系统的镇定

讨论前馈结构系统x^.1=Ax1+g(x2,u),x^.2=f(x2,u)的反馈镇定，应用前向设计方法给出了当系统x^.2=f(x2,u)可以反馈镇定的时候，整个系统反馈镇定的条件，在设计中实现了输入－状态增

期刊

简单前馈结构控制系统镇定非线性控制输入-状态稳定性状态反馈nonlinear control strictly feedforward system

高等教育深化改革背景下教师使命探析

《国家中长期教育改革和发展规划纲要（2010-2020年）》实施几年来,我国教育改革和发展都取得了骄人的成就,尤其是普及义务教育的成果,更是令世界刮目相看。在高等教育领域,创新

期刊

高教改革教师使命教书育人

基于Markov延迟特性的闭环网络控制系统研究

针对控制网络中固有的随机传输延迟，提出了一种新颖的控制模式，实现了对存在多步随机传输延迟的网络控制系统的数学建模，基于该模型，利用Markov链理论，得到了满足给定性能标的随机

期刊

延迟特性闭环网络控制系统MARKOV链数字模型现场总线closed loop network control system transfer del

掌握正确挥杆节奏双脚并拢获取更好平衡

许多球员挥杆都趋向于更快和更稳。在用长杆进行高挥杆时尤其是这样。掌握正确的挥杆速度，可以从双脚并拢练习挥杆开始。

期刊

高尔夫球挥杆姿势击球

强化财务管理推进国土建设

期刊

财务管理国土建设平昌县国土资源局

一类非线性系统的分步变换伪线性化方法

给出了单输入非线性系统的分步变换伪线性化方法及其算法.首先将原系统变换为标准型.利用［1］中的算法，可以获得将标准型变换为伪标准型的变换阵T.在第一步变换下，原系统的部分状

期刊

非线性系统伪线性化倒立摆控制计算机仿真nonlinear systempseudolinearizationinverted pendulum co

Markov控制过程基于单个样本轨道的在线优化算法

与本文相关的学术论文