半马尔可夫决策过程相关论文
预防性维修可以提高可用度,减少维修花费,是保持产品性能和可靠性的重要手段。随着信号分析和处理技术的快速发展,视情维修在航天......
当今世界,能源是人类生存和发展的重要基础。其中风能是一种分布广泛的清洁型能源,风力发电也越来越受到人类的关注与重视。与此同......
随着社会和科技的发展,离散事件动态系统(DEDS)的性能分析和优化应用已经成为控制与系统、管理、计算机等学科交叉领域内的一个前......
学位
作为一类特殊的随机过程,Markov过程在实际生活中有着广阔的应用领域。Markov决策过程(MDP)和半Markov决策过程(SMDP)都是描述这类......
本文主要研究有限阶段半马尔可夫决策过程(简记为SMDPs)。本文考虑有限阶段期望报酬准则,研究可数状态空间,有限行动空间和无界报酬......
考虑含光伏发电装置、储能装置和柴油发电机组的独立微网系统,以提高微网长期运行经济性为目标,研究微网能量管理优化问题。首先对系......
$options是一种与SMDP模型紧密相关的引入时间抽象的强化学习算法!该算法一个重要且仍待解决的问题是如何能使agent自主找到合适的......
半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数......
考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等......
客票发售是列车能力利用的具体表现,票额出售即为能力占用,预售期购票需求的变化直接影响着列车能力的占用过程。本文在已知基于列......
针对Internet环境的动态性和Web服务的不确定性,文章使用有限状态连续时间半马尔可夫决策过程(Semi—MarkovDecisionProcess,简称SMDP......
足球机器人的研究是一项挑战性的研究领域,为了设计出智能型的球员必须涉及到计算机、人工智能、视觉及机械学等方面的研究。球员......
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解......
随着车联网(IoV)应用服务的发展,提升网络的任务卸载能力成为满足用户服务需求的关键。文中针对动态场景中车辆计算资源共享问题,......
准入控制是码分多址(CDMA)蜂窝网络中服务质量保证的一个关键技术.该文提出了一个基于半马尔可夫决策过程理论的最优准入控制策略......
针对风机变速箱的劣化特性和维修策略问题,将变速箱的劣化过程看成一个Gamma过程,把维修方式和检测时间间隔作为决策变量,同时又考......
Testing is the premise and foundation of realizing equipment health management (EHM). To address the problem that the st......
强化学习作为机器学习领域中的一种主要算法,在智能决策和行为认知等领域有着重要作用,也是解决随机序贯决策问题的有效方法。虽然......
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔......
首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方......
研究了服务率不确定情况下的单站点传送带给料加工站(CSPS)系统的鲁棒优化控制问题。在仅知服务率区间的条件下,以CSPS系统的前视距......