半MARKOV决策过程相关论文
微网(micro-grid)由分布式发电装置、储能装置、负荷及控制装置组成,既可并网运行,也可以孤岛运行。在并网运行时,与电网进行能量......
离散事件动态系统(DEDS)是实际生活中广泛存在的一类人造系统,而半Markov决策过程(SMDP)是这类系统建模的主要方法之一。为了适应......
学位
Q学习等强化学习技术是解决一类离散事件动态系统优化问题的有效方法,已经广泛应用到各类实际问题的研究中,特别是可拓展到可用半Mar......
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了......
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并......
首先分别在折扣代价与平均代价性能准则下,讨论了一类半Markov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后......
文章研究了一阶连续时间非线性随机系统的优化控制问题,通过勒贝格采样方法将其建模为半Markov决策过程,采用基于事件驱动和Q学习......
为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模......
针对嵌入式系统的多任务环境,提出了混合模型功耗管理算法,用于对服从一般分布的系统进行建模。首先,介绍了现有的动态功耗管理策......
现实世界的一些生产制造业中,通常存在一类配有恒速传送带的生产中心,工件随机到达生产中心进行必要的加工。通常,为了提高生产线......
随着信息时代的到来,当前互联网体系结构所存在的缺陷与不足变得日益突出,以往的增补式改良方案无法彻底解决由互联网自身的设计缺......
随着科学技术的发展,在通讯网络(Internet及无线网络),柔性制造,智能机器人,交通管理等领域,出现了大量的复杂随机动态系统。目前,该类系......
强化学习在智能决策领域有着极其重要的作用。报酬函数作为强化学习的重要元素,通常是凭经验人为设定,不仅缺少理论支持,在面对复......
运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的......
借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通......
随着电网规模的不断扩大,输变电设备数量的急剧增加,传统的只重视资产设备的表现而忽略资产价值的理念和做法已经不能适应新形势下......
研究离散事件动态系统中的一类随机离散动态系统—–半Markov决策过程,在动态电源管理问题中的应用.动态电源管理问题存在于很多便......