性能势相关论文
本文采用性能势理论和方法,研究了动态控制系统的学习和优化的问题。性能势理论是学习和优化领域相当重要的一套理论和方法。基于......
研究了电子销售市场上的单销售商动态定价问题。将问题模型建模成半Markov决策过程(SMDP),为了解决这个问题,结合性能势理论,给出了平......
考虑半Markov控制过程核未知情况下的优化问题,提出一种基于强化学习的在线自适应优化算法.运用基于事件的优化方法,通过建立半Mar......
文中研究了一类离散时间和连续时间Markov控制过程(MCP)在紧致行动集上,关于平均代价性能准则的优化问题.根据MCP的平均代价Poisso......
本文以Markov性能势为基础,讨论G/M/1型排队系统的稳态性能灵敏度分析与优化问题。文中给出了系统极限分布与嵌入Markov链的稳......
本文将Markov性能势理论推广到了半Markov过程,在此基础上,讨论了一类具有可数状态空间的半Markov控制过程的稳态性能灵敏度分析......
本文研究了随机非线性系统的最优控制设计问题,给出了基于性能势的在线优化算法。性能势函数通过系统样本路径进行估算,优化控制可......
强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题,具有动态......
半马尔可夫决策过程(SMDP)可用来描述实际生活中很大一类离散事件动态系统,即半Markov系统。实际的系统不可避免地存在不确定性,而......
离散事件动态系统(DEDS)是实际生活中广泛存在的一类人造系统,而半Markov决策过程(SMDP)是这类系统建模的主要方法之一。为了适应......
学位
随着社会和科技的发展,离散事件动态系统(DEDS)的性能分析和优化应用已经成为控制与系统、管理、计算机等学科交叉领域内的一个前......
学位
作为一类特殊的随机过程,Markov过程在实际生活中有着广阔的应用领域。Markov决策过程(MDP)和半Markov决策过程(SMDP)都是描述这类......
具有抽象机制的分层强化学习方法可以实现状态空间的降维,从而解决大规模系统中的“维数灾”问题。由于引入了状态抽象机制,分层强......
随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化......
探讨基于look-ahead控制的传送带服务生产加工站(CSPS)的优化控制问题。通过建模为半Markov决策过程(SMDP),基于性能势理论研究了......
本文探讨了基于Look-Ahead控制的传送带服务生产加工站的优化控制问题。通过建模为半Markov决策过程,基于性能势理论研究了平均和折......
本文在状态转移矩阵未知的条件下,研究了一类带有平均代价约束的Markov决策问题.利用性能势可以由一条样本轨道仿真估计的特性,给......
本文讨论了半马尔可夫决策过程(SMDP)基于参数学习的性能优化问题.首先通过SMDP的一致链转抉及其性能势的神经元网络逼近,建立......
文中研究了一类连续时间Markov控制过程 (CTMCP)无穷水平平均代价性能的最优控制决策问题 .文章采用无穷小生成元和性能势的基本性......
本文通过嵌入Markov链的方法,研究了受控M/G/1排队系统,在无限水平平均代价准则下的最优平稳策略问题.引入了折扣Poisson方程,并导......
马尔可夫决策过程(MDP)的许多优化算法一般依赖系统的转移速率,而系统参数的不确定性使得MDP的转移速率往往很难精确得知。针对一......
基于性能势理论,对离散事件动态系统进行性能分析和性能优化时,需要计算实现因子和性能势.在这篇文章中,以遍历Markov链为模型,针对现有......
本文的工作重点是研究半Markov控制过程中的并行优化算法。首先给出一种半Markov控制过程性能势的估计算法,相对于基于实现矩阵的估......
本文主要研究随机系统的最优控制问题,寻找适用于非线性系统的在线优化算法。论文将随机控制系统看作连续状态的马尔可夫决策过程,通......
基于Markov性能势理论和神经元动态规划(NDP)方法,研究一类连续时间Markov决策过程(MDP)在随机平稳策略下的仿真优化问题,给出的算......
提出了一种基于马尔可夫切换状态空间控制模型的多媒体服务器集群系统能耗最优控制方法.通过建立多媒体服务器集群的随机控制模型,......
研究一类受控闭排队网络系统的性能优化问题 .文章引进了两个基本概念 :折扣代价α 性能势和平均代价性能势 ,并且讨论了这两个性......
Rollout算法是Bertsekas提出的求解马尔科夫决策过程(MDP)问题的一种仿真优化算法。文章研究Rollout算法求解多类商品库存控制问题......
给出半Markov过程(Semi-Markov Processes)性能势基于一条样本轨道的仿真算法,从并行仿真的角度,将已有Markov过程的性能势理论推......
基于3层架构的映射框架,本文以视频业务为主要研究对象,研究了分布式协同接入控制系统的建模和调控机理。不失一般性,假设视频业务需......
传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势......
强化学习和性能势理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,......
文章在rollout算法基础上研究了在多Agent MDPs的学习问题.利用神经元动态规划逼近方法来降低其空间复杂度,从而减少算法"维数灾".由......
研究一类受控闭排队网络系统的性能优化问题,文章引进了两个基本概念:折扣代价α-性能势和平均代价性能势,并且讨论了这两个性能势之间......
研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法.根据CTMCP的性能势公式和平均代价最优性......
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了......
半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数......
Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势......
对具有一般分布的排队系统-M/G/1排队系统给出了一种通过其嵌入Markov链来计算系统势能及性能导数的仿真算法。由于该算法基于分析......
在闭排队网络服务策略的优化中,基于对系统一条样本轨道的仿真进行策略优化是一种很有实用意义的方法。但在具体优化过程中,过多的......
考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等......
对G/M/1排队系统,通过研究其嵌入Markov链,讨论了系统的稳态性能灵敏度分析问题,导出了系统的稳态分布与其嵌入Markov链的稳态分布......
在对遍历Markov链的性能灵敏度分析中,可以用计算Markov链的实现因子来代替计算Markov链的性能势。给出了一种基于耦合技术的仿真......
非线性随机系统的最优控制,采用基于性能势的随机优化数值算法。在合适的性能指标并能找到一个使系统性能有界的控制的前提下,通过策......
研究了一类离散时间Markov控制过程平均代价性能最优控制决策问题.应用Markov性能势的基本性质,在很一般性的假设条件下,直接导出......
文中研究了一类连续时间Markov控制过程(CTMCP)无穷水平平均代价性能的最优控制决策问题.文章采用无穷小生成元和性能势的基本性质......
RELATIONS BETWEEN PERFORMANCE POTENTIALS AND INFINITESIMAL REALIZATION FACTORS IN CLOSED QUEUEING NE
In this paper,the concept of the infinitesimal realization factor is extended to the parameter-dependent performance fun......
为适应实际大规模Markov系统的需要,讨论Markov决策过程(MDP)基于仿真的学习优化问题-根据定义式,建立性能势在平均和折扣性能准则下统......
研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运......
研究电子零售市场上两个销售商在彼此没有信息交互情况下的异步动态定价问题.基于性能势理论,建立了同时适用于平均和折扣两种优化准......