Markov决策过程相关论文
随着供应链系统的不断发展,生产企业生产计划的制定面临更多不确定性,如何科学合理的进行生产控制是供应链环境下生产企业进行生产......
学位
折扣最优判据是当今激励学习领域广泛使用的判据.本文分析了折扣最优判据存在的问题,对基于折扣最优判据的PW-SARSA(λ)算法进行了......
会议
移动自组织网络(MobileAdhocNetwork,MANET)由一组无线收发装置组成,其无需基础设施支持。在数字化战场、紧急救助和传感器网络等领......
该文主要研究基于动态规划的强化学习算法,在已有的学习结构和学习算法的基础上,提出了几种改进的学习结构和学习算法,主要成果可......
该文应用Markov性能势的基本性质与摄动分析方法,建立了一类排队网络的性能势理论,在此基础上导出了排队网络稳态性能指标关于服务......
数据压缩是把输入数据流(源流和原始数据)转变为另一种较小数据流(输出流或者压缩流)的过程。现有的大多数数据压缩算法是对某些特......
学位
自动规划是人工智能中的一个重要研究领域,在机器人的动作规划,货运码头调度,以及工厂的车间作业调度,现代物流管理以及宇航技术等领域......
学位
随着地震数据采集技术的进步,地震数据量日益增加,全自动、高精度的地震初至走时拾取技术受到了更加广泛的关注.本文将初至拾取看......
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)......
随着现代工业和信息科技的迅猛发展,复杂制造系统的规模逐渐扩大,整个系统的自动化水平不断得到提高。特别是近几十年,提出了许多具有......
该文在对遗传算法已有模型的完善和推广的基础上,建立了遗传算法的Markov决策过程模型.详细研究了目前遗传算法领域几个普遍关注的......
随机优化算法是一类搜索未知函数零点或极值的递推算法。与Newton-Raphson方法等确定性算法不同,随机优化算法能够处理函数值无法准......
我们考虑一个具有不完善预先需求信息(ADI)和多类客户的生产库存系统。根据客户的需求和库存的水平,供应商必须决定:1.何时进行生产2......
随着网络技术的快速发展,信息化系统的处理能力越来越强。在矿井通讯系统中应用Markov决策过程逐渐向自动化管理方向扩展,并得到更广......
期刊
研究了一种基于变尺度编码CMAC神经网络的增强学习控制器设计方法,并应用于以自行车平衡为模型的非线性随机系统的学习控制中.该方......
目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均......
对于一类利用中心式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态组划分切换行为......
通过建立一个离散型Markov决策模型,并在模型中引入感知价值和感知价值系数,本文研究了消费型耐用品购买的多阶段最优策略.当每个......
Rollout算法是Bertsekas提出的求解马尔科夫决策过程(MDP)问题的一种仿真优化算法。文章研究Rollout算法求解多类商品库存控制问题......
由于无线传感器网络节点的能量主要消耗在数据的传输上,因此路由选择的有效性决定网络整体能量消耗的高低。本文将网络构建成一个......
目的 讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均......
基于3层架构的映射框架,本文以视频业务为主要研究对象,研究了分布式协同接入控制系统的建模和调控机理。不失一般性,假设视频业务需......
优化编制铁路钢轨维修规划,对管理者合理利用维修资源、确保铁路行车安全具有重要意义.本文基于铁路基础设施网格化管理思想,按照......
本文研究了在一般状态空间具有平均费用的非平稳Markov决策过程,把在平稳情形用补充的折扣模型的最优方程来建立平均费用的最优方程的结果......
在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上,设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神......
基于强化学习的方法,提出一种无线多媒体通信网适应带宽配置在线优化算法,在满足多类业务不同QoS(quality of service)要求的同时,提......
针对模具制造项目由不确定性因素导致的交货期难以预测的问题,分析了模具生产过程中的几种主要随机因素,并提出多模式的概念。结合车......
针对模具项目群制造过程的不确定性和资源需求的动态性,建立了基于离散时间Markov的模具制造项目随机演化模型。基于该模型,提出一......
The transmission delay of realtime video packet mainly depends on the sensing time delay(short-term factor) and the enti......
针对现有Markov决策过程自适应决策方法仅研究无限规划水平自适应决策的不足,提出了一种有限规划水平Markov决策过程自适应决策算法......
针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法.该......
服务系统运行中因环境变化而面临各种不确定性事件,导致期望价值无法完全实现.有多种应对不确定性的策略,不同的策略导致服务最终......
提出一种基于连续时间Markov决策过程的动态电源管理策略优化方法.通过建立动态电源管理系统的随机切换模型,将动态电源管理问题转......
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,时传统的平均奖赏激励学习进行了推广,提......
对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的......
在一种新的概率阈值准则下讨论马尔可夫决策的最优解的算法问题.采用基于增益的过去累积值的方法,求解马尔可夫最优策略.......
在“NCD”系统中,利用Markov决策过程,获得了投保双方博弈行为的最优结果.对被保险人来说,确定了其最优临界损失值;对保险人来说,确定了......
研究两机器人高速搬运系统的作业分配问题.在系统的Markov决策过程(MDP)模型中,状态变量具有连续取值和离散取值的混杂性,状态空间复杂......
针对含扩散项不可靠随机生产系统最优生产控制的优化命题,采用数值解方法来求解该优化命题最优控制所满足的模态耦合的非线性偏微分......
在一种新的准则概率阈值准则下讨论马尔可夫决策的最优解的算法问题.在该准则下,采用基于未来阈值的方法,求解马尔可夫最优策略.......
对于一类利用集中式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态分组切换行为.......
基于Markov决策过程(MDP)的规划方法可以处理多种不确定规划问题,价值迭代算法(VI)是求解MDP的经典算法,但VI需要计算更新每个状态的值......
针对大数据处理框架MapReduce中的任务调度问题,提出一种基于Markov决策过程(Markov Decision Process,MDP)的任务调度算法,通过状态集......
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)......
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题.求解最优决策一般有两种途径:一种是求最大奖赏方法,另一......
考虑系统参数未知情况下的动态电源管理问题,提出一种基于强化学习的存线策略优化算法.通过建立事件驱动的随机切换分析模型,将动态电......
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题......
为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用......
大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题.将记忆心理学中有关遗忘的基本原理引入值函数的激励学......
多智能体分布问题求解复杂度与其组织结构紧密相关,在层次组织中进行多层问题抽象以及子问题并行求解,可以将复杂度为指数规模问题......