MARKOV决策过程相关论文
随着供应链系统的不断发展,生产企业生产计划的制定面临更多不确定性,如何科学合理的进行生产控制是供应链环境下生产企业进行生产......
学位
移动自组织网络(MobileAdhocNetwork,MANET)由一组无线收发装置组成,其无需基础设施支持。在数字化战场、紧急救助和传感器网络等领......
该文应用Markov性能势的基本性质与摄动分析方法,建立了一类排队网络的性能势理论,在此基础上导出了排队网络稳态性能指标关于服务......
数据压缩是把输入数据流(源流和原始数据)转变为另一种较小数据流(输出流或者压缩流)的过程。现有的大多数数据压缩算法是对某些特......
学位
自动规划是人工智能中的一个重要研究领域,在机器人的动作规划,货运码头调度,以及工厂的车间作业调度,现代物流管理以及宇航技术等领域......
学位
随着现代工业和信息科技的迅猛发展,复杂制造系统的规模逐渐扩大,整个系统的自动化水平不断得到提高。特别是近几十年,提出了许多具有......
随着网络技术的快速发展,信息化系统的处理能力越来越强。在矿井通讯系统中应用Markov决策过程逐渐向自动化管理方向扩展,并得到更广......
期刊
研究了一种基于变尺度编码CMAC神经网络的增强学习控制器设计方法,并应用于以自行车平衡为模型的非线性随机系统的学习控制中.该方......
目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均......
对于一类利用中心式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态组划分切换行为......
通过建立一个离散型Markov决策模型,并在模型中引入感知价值和感知价值系数,本文研究了消费型耐用品购买的多阶段最优策略.当每个......
由于无线传感器网络节点的能量主要消耗在数据的传输上,因此路由选择的有效性决定网络整体能量消耗的高低。本文将网络构建成一个......
基于3层架构的映射框架,本文以视频业务为主要研究对象,研究了分布式协同接入控制系统的建模和调控机理。不失一般性,假设视频业务需......
优化编制铁路钢轨维修规划,对管理者合理利用维修资源、确保铁路行车安全具有重要意义.本文基于铁路基础设施网格化管理思想,按照......
在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上,设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神......
基于强化学习的方法,提出一种无线多媒体通信网适应带宽配置在线优化算法,在满足多类业务不同QoS(quality of service)要求的同时,提......
针对模具项目群制造过程的不确定性和资源需求的动态性,建立了基于离散时间Markov的模具制造项目随机演化模型。基于该模型,提出一......
针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法.该......
服务系统运行中因环境变化而面临各种不确定性事件,导致期望价值无法完全实现.有多种应对不确定性的策略,不同的策略导致服务最终......
提出一种基于连续时间Markov决策过程的动态电源管理策略优化方法.通过建立动态电源管理系统的随机切换模型,将动态电源管理问题转......
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,时传统的平均奖赏激励学习进行了推广,提......
对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的......
在一种新的概率阈值准则下讨论马尔可夫决策的最优解的算法问题.采用基于增益的过去累积值的方法,求解马尔可夫最优策略.......
在“NCD”系统中,利用Markov决策过程,获得了投保双方博弈行为的最优结果.对被保险人来说,确定了其最优临界损失值;对保险人来说,确定了......
研究两机器人高速搬运系统的作业分配问题.在系统的Markov决策过程(MDP)模型中,状态变量具有连续取值和离散取值的混杂性,状态空间复杂......
针对含扩散项不可靠随机生产系统最优生产控制的优化命题,采用数值解方法来求解该优化命题最优控制所满足的模态耦合的非线性偏微分......
在一种新的准则概率阈值准则下讨论马尔可夫决策的最优解的算法问题.在该准则下,采用基于未来阈值的方法,求解马尔可夫最优策略.......
对于一类利用集中式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态分组切换行为.......
基于Markov决策过程(MDP)的规划方法可以处理多种不确定规划问题,价值迭代算法(VI)是求解MDP的经典算法,但VI需要计算更新每个状态的值......
针对大数据处理框架MapReduce中的任务调度问题,提出一种基于Markov决策过程(Markov Decision Process,MDP)的任务调度算法,通过状态集......
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)......
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题.求解最优决策一般有两种途径:一种是求最大奖赏方法,另一......
考虑系统参数未知情况下的动态电源管理问题,提出一种基于强化学习的存线策略优化算法.通过建立事件驱动的随机切换分析模型,将动态电......
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题......
为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用......
大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题.将记忆心理学中有关遗忘的基本原理引入值函数的激励学......
多智能体分布问题求解复杂度与其组织结构紧密相关,在层次组织中进行多层问题抽象以及子问题并行求解,可以将复杂度为指数规模问题......
研究了一种基于三角剖分的小脑模型的增强学习控制器设计方法,并应用于机器人足球中单机器人截球的学习控制中。该方法通过在Marko......
为适应实际大规模Markov系统的需要,讨论Markov决策过程(MDP)基于仿真的学习优化问题-根据定义式,建立性能势在平均和折扣性能准则下统......
提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进......
对强化学习中的探索方案进行了研究,描述了间接探索和直接探索两种方案各自的特点.综合它们的优点,提出了一种集直接探索和间接探......
设计混合智能控制结构,该结构引入强化学习和神经网络,提出基于BP神经网络的Q学习算法,优化动作的选取,解决传统Q学习中Q表占用内......
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用......
提出一种计算效率高且能以任意给定精度实现决策近优的新方法.该方法的原理是根据要求的决策精度对参数集进行有限分区,利用有偏极......
本文在RoboCup3D仿真平台中,实现建立了高通量计算机集群HTCondor系统,并在此基础上建立了Robocup3D个体机器人的动作优化机制,对......
在制备色谱的优化设计和控制过程中,若试图把基于偏微分方程(PDE)-Eulerian描述的Wilson色谱理论框架和基于离散时间状态的优化控制方......
针对无人机(unmanned aerial vehicle,UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主......
为了更好地保障集束型晶圆制造设备运行的可靠性,同时考虑维护的经济性,建立了基于Markov过程的预防性维护策略.根据集束型设备的......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......