Markov决策过程相关硕士博士期刊学术论文

Markov决策过程相关论文

供应链环境下易腐商品生产的控制和优化

随着供应链系统的不断发展,生产企业生产计划的制定面临更多不确定性,如何科学合理的进行生产控制是供应链环境下生产企业进行生产......

学位

供应链易腐商品生产最优控制生产策略 Markov决策过程

S(λ):一个基于平均奖赏MDPs的激励学习算法

折扣最优判据是当今激励学习领域广泛使用的判据.本文分析了折扣最优判据存在的问题,对基于折扣最优判据的PW-SARSA(λ)算法进行了......

会议

激励学习 Markov决策过程平均奖赏折扣奖赏机器学习

基于MANET通信延时降低策略研究

移动自组织网络(MobileAdhocNetwork，MANET)由一组无线收发装置组成，其无需基础设施支持。在数字化战场、紧急救助和传感器网络等领......

学位

MANET通信跨层设计延时降低策略 Markov决策过程 HE-PDS学习

决策过程的有效强化学习方法研究

该文主要研究基于动态规划的强化学习算法,在已有的学习结构和学习算法的基础上,提出了几种改进的学习结构和学习算法,主要成果可......

学位

强化学习 Markov决策过程动态规划即时差分学习 Monte Carlo方法 Q学习 SARSA学习函数近似

Markov型排队网络的优化理论及其仿真算法研究

该文应用Markov性能势的基本性质与摄动分析方法,建立了一类排队网络的性能势理论,在此基础上导出了排队网络稳态性能指标关于服务......

学位

Markov性能势摄动分析排队网络导数估计排队网络 Markov决策过程

基于Markov决策过程的数据压缩研究

数据压缩是把输入数据流(源流和原始数据)转变为另一种较小数据流(输出流或者压缩流)的过程。现有的大多数数据压缩算法是对某些特......

学位

数据压缩 Markov决策过程状态空间状态转移

自动规划中群体智能技术的研究

自动规划是人工智能中的一个重要研究领域，在机器人的动作规划，货运码头调度，以及工厂的车间作业调度，现代物流管理以及宇航技术等领域......

学位

自动规划规划图 Markov决策过程不确定规划群体智能算法

基于约束Markov决策过程的初至自动识别技术

随着地震数据采集技术的进步,地震数据量日益增加,全自动、高精度的地震初至走时拾取技术受到了更加广泛的关注.本文将初至拾取看......

期刊

机器学习特征属性空间结构约束 MARKOV决策过程初至自动拾取

基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)

智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)......

期刊

智能体 Markov决策过程 ATD(λ) 状态空间最优决策决策问题大时 otherwise Repeat Figure

复杂制造系统设备维护调度的研究

随着现代工业和信息科技的迅猛发展，复杂制造系统的规模逐渐扩大，整个系统的自动化水平不断得到提高。特别是近几十年，提出了许多具有......

学位

复杂制造系统维护调度视情维护 Monte Carlo方法 Markov决策过程

遗传算法的随机模型、理论分析及应用

该文在对遗传算法已有模型的完善和推广的基础上,建立了遗传算法的Markov决策过程模型.详细研究了目前遗传算法领域几个普遍关注的......

学位

遗传算法马氏性种群多样度过早收敛 VC维数通用下界隐含并行性 Markov决策过程遗传算子模糊系统

关于随机优化算法的一些问题研究

随机优化算法是一类搜索未知函数零点或极值的递推算法。与Newton-Raphson方法等确定性算法不同，随机优化算法能够处理函数值无法准......

学位

随机逼近算法 Banach空间 Metropolis型算法 Markov决策过程

生产时间服从Erlang分布的生产库存系统中的最优策略

我们考虑一个具有不完善预先需求信息(ADI)和多类客户的生产库存系统。根据客户的需求和库存的水平，供应商必须决定：1.何时进行生产2......

学位

生产库存系统 Erlang生产时间生产分配策略 Markov决策过程预先需求信息

Markov决策过程在矿井通讯系统中的应用

随着网络技术的快速发展，信息化系统的处理能力越来越强。在矿井通讯系统中应用Markov决策过程逐渐向自动化管理方向扩展，并得到更广......

期刊

Markov决策过程矿井通讯系统

基于变尺度编码CMAC的增强学习控制器及其应用

研究了一种基于变尺度编码CMAC神经网络的增强学习控制器设计方法,并应用于以自行车平衡为模型的非线性随机系统的学习控制中.该方......

期刊

增强学习小脑模型关节控制器泛化学习控制 Markov决策过程

多步R学习算法

目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均......

期刊

强化学习平均报酬 R学习 Markov决策过程即时差分学习 reinforcement learning average reward R-learning

一类分层非结构化P2P系统的随机优化

对于一类利用中心式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态组划分切换行为......

期刊

Markov决策过程分层非结构化P2P 超级节点

Mark0V动态决策过程在耐用品购买中的应用

通过建立一个离散型Markov决策模型,并在模型中引入感知价值和感知价值系数,本文研究了消费型耐用品购买的多阶段最优策略.当每个......

期刊

Markov决策过程耐用消费品最优购买决策感知价值

Rollout及其并行求解算法在多类商品库存控制中的应用

Rollout算法是Bertsekas提出的求解马尔科夫决策过程(MDP)问题的一种仿真优化算法。文章研究Rollout算法求解多类商品库存控制问题......

期刊

ROLLOUT算法库存控制 MARKOV决策过程性能势并行算法神经元动态规划 Launch Canister Launch Finite Eleme

基于Q学习的无线传感器网络路由协议

由于无线传感器网络节点的能量主要消耗在数据的传输上,因此路由选择的有效性决定网络整体能量消耗的高低。本文将网络构建成一个......

期刊

无线传感器网络 Q学习路由协议 MARKOV决策过程 wireless sensor networks Q-learning routing protoc

多步 R 学习算法(英文)

目的　讨论平均准则下控制马氏链的强化学习算法，在事先未知状态转移矩阵及报酬函数的条件下，通过试凑法寻找使得长期每阶段期望平均......

期刊

强化学习平均报酬 R学习 MARKOV决策过程即时差分学习 reinforcement learning average reward Rlearnin

基于Markov切换空间的分布式协同接入控制模型

基于3层架构的映射框架，本文以视频业务为主要研究对象，研究了分布式协同接入控制系统的建模和调控机理。不失一般性，假设视频业务需......

期刊

MARKOV决策过程 MARKOV切换系统性能势策略迭代 Markov decision process Markov switching system

铁路钢轨网格化维修规划优化编制模型

优化编制铁路钢轨维修规划,对管理者合理利用维修资源、确保铁路行车安全具有重要意义.本文基于铁路基础设施网格化管理思想,按照......

期刊

铁路运输铁路钢轨维修规划网格化 MARKOV决策过程 railway transportation railway rail maintenance pl

具有平均费用的非平稳Markov决策过程

本文研究了在一般状态空间具有平均费用的非平稳Ｍａｒｋｏｖ决策过程，把在平稳情形用补充的折扣模型的最优方程来建立平均费用的最优方程的结果......

期刊

MARKOV决策过程平均费用准则最优策略 Markov decision processes Average cost criterion optimal

基于神经网络的Agent增强学习模型

在深入分析Agent决策过程中状态与行为空间的迁移与构造的基础上，设计了Agent基于强化学习的最优行为选择策略和Agent强化学习的神......

期刊

AGENT 强化学习神经网络 MARKOV决策过程 Agent Reinforcement learning Neural networks Markov d

无线多媒体通信网适应带宽配置在线优化算法

基于强化学习的方法,提出一种无线多媒体通信网适应带宽配置在线优化算法,在满足多类业务不同QoS（quality of service）要求的同时,提......

期刊

适应带宽配置 MARKOV决策过程策略优化强化学习随机逼近 QoS(quality of service)保证 adaptive bandwidth al

随机环境下的模具项目交货期预测方法

针对模具制造项目由不确定性因素导致的交货期难以预测的问题，分析了模具生产过程中的几种主要随机因素，并提出多模式的概念。结合车......

期刊

多模式 MARKOV决策过程动态规划交货期预测优先规则模具制造 multi-mode Markov decision process dynamic

不确定环境下模具群项目计划制定方法

针对模具项目群制造过程的不确定性和资源需求的动态性,建立了基于离散时间Markov的模具制造项目随机演化模型。基于该模型,提出一......

期刊

模具 MARKOV决策过程项目计划动态规划 mold projects Markov decision process project manageme

Evolution Handoff Strategy for Real-Time Video Transmission over Practical Cognitive Radio Networks

The transmission delay of realtime video packet mainly depends on the sensing time delay(short-term factor) and the enti......

期刊

实时视频传输无线电网络切换策略进化谱 MARKOV决策过程混合整数非线性规划传输延迟最优化问题 practical cognitive radio

有限规划水平自适应Markov决策过程的参数决策

针对现有Markov决策过程自适应决策方法仅研究无限规划水平自适应决策的不足，提出了一种有限规划水平Markov决策过程自适应决策算法......

期刊

MARKOV决策过程自适应决策 BAYes原理有限规划参数决策 Markov decision process (MDP) adaptive decis

神经网络增强学习的梯度算法研究

针对具有连续状态和离散行为空间的Markov决策问题，提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法.该......

期刊

神经网络增强学习梯度算法 MARKOV决策过程值函数逼近机器学习 reinforcement learning neural networks Mark

基于MDP的服务不确定性自适应决策方法

服务系统运行中因环境变化而面临各种不确定性事件,导致期望价值无法完全实现.有多种应对不确定性的策略,不同的策略导致服务最终......

期刊

运行时服务不确定事件自适应决策 MARKOV决策过程仿真实验 run-time service uncertainty event adaptive

动态电源管理的随机切换模型与策略优化

提出一种基于连续时间Markov决策过程的动态电源管理策略优化方法.通过建立动态电源管理系统的随机切换模型,将动态电源管理问题转......

期刊

动态电源管理 MARKOV决策过程随机切换模型策略优化梯度算法 dynamic power management Markov decision pro

一类基于有效跟踪的广义平均奖赏激励学习算法

取消了平均奖赏激励学习的单链或互通MDPs假设，基于有效跟踪技术和折扣奖赏型SARSA(λ)算法，时传统的平均奖赏激励学习进行了推广，提......

期刊

激励学习 MARKOV决策过程平均奖赏有效跟踪 Reinforcementlearning Markov decision processes(MDPs )

效用驱动的Markov强化学习

对智能体Q强化学习方法进行了扩展,讨论效用驱动的Markov强化学习问题。与单吸收状态相比,学习过程不再是状态驱动,而是效用驱动的......

期刊

强化学习智能体 MARKOV决策过程 reinforcement learning intelligent agent Markov decision pro

在概率阈值准则下马尔可夫策略的最优化算法

在一种新的概率阈值准则下讨论马尔可夫决策的最优解的算法问题．采用基于增益的过去累积值的方法，求解马尔可夫最优策略．......

期刊

概率阈值准则马尔可夫策略最优化算法 MARKOV决策过程 Markov最优策略 Markov decision processes Markov opti

“NCD”系统中保险双方的最优决策

在“NCD”系统中，利用Markov决策过程，获得了投保双方博弈行为的最优结果．对被保险人来说，确定了其最优临界损失值；对保险人来说，确定了......

期刊

“NCD”系统 MARKOV决策过程临界损失值最优保费最优折扣＂NCD＂ systems threshold damage values optim

搬运系统作业分配问题的小脑模型关节控制器Q学习算法

研究两机器人高速搬运系统的作业分配问题．在系统的Markov决策过程（MDP）模型中，状态变量具有连续取值和离散取值的混杂性，状态空间复杂......

期刊

作业分配 MARKOV决策过程 Q学习 CMAC task assignment MDP Q-learning CMAC

含扩散项不可靠生产系统最优生产控制的数值求解

针对含扩散项不可靠随机生产系统最优生产控制的优化命题，采用数值解方法来求解该优化命题最优控制所满足的模态耦合的非线性偏微分......

期刊

不可靠生产系统生产控制数值解 MARKOV决策过程 unreliable production systems production control n

基于未来阈值的马尔可夫策略的最优化算法

在一种新的准则概率阈值准则下讨论马尔可夫决策的最优解的算法问题.在该准则下,采用基于未来阈值的方法,求解马尔可夫最优策略.......

期刊

MARKOV决策过程 Markov最优策略概率阈值准则 markov decision processes markov optimum policy pro

一类分层非结构化P2P系统的随机切换模型

对于一类利用集中式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态分组切换行为.......

期刊

MARKOV决策过程分层非结构化P2P 超级节点策略迭代 Markov decision process Hierarchical unstructere

顺序价值迭代算法求解不确定规划

基于Markov决策过程（MDP）的规划方法可以处理多种不确定规划问题,价值迭代算法（VI）是求解MDP的经典算法,但VI需要计算更新每个状态的值......

期刊

智能规划不确定规划 MARKOV决策过程价值迭代 Intelligent Planning Uncertainty Planning Markov De

大数据处理框架中基于MDP的任务调度算法

针对大数据处理框架MapReduce中的任务调度问题，提出一种基于Markov决策过程（Markov Decision Process，MDP）的任务调度算法，通过状态集......

期刊

大数据 MAPREDUCE MARKOV决策过程任务调度 big data MapReduce Markov decision process task

基于有效跟踪的平均渐进瞬时差分学习遗忘算法

智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)......

期刊

遗忘算法激励学习 MARKOV决策过程 ATD(λ) 有效跟踪平均渐进瞬时差分学习心理学 forgetting algorithms reinforce

样本有限关联值递归Q学习算法及其收敛性证明

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题.求解最优决策一般有两种途径:一种是求最大奖赏方法,另一......

期刊

关联值递归 Q学习算法收敛性证明激励学习最优费用函数 MARKOV决策过程人工智能 reinforcement learning Q-learning

动态电源管理的随机切换模型与在线优化

考虑系统参数未知情况下的动态电源管理问题，提出一种基于强化学习的存线策略优化算法．通过建立事件驱动的随机切换分析模型，将动态电......

期刊

动态电源管理 MARKOV决策过程强化学习梯度估计随机逼近在线优化 Dynamic power management Markov decision

基于Q学习算法的发电公司决策新模型

提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题......

期刊

电力市场 Q学习算法 MARKOV决策过程策略行为 electricity market Q-learning algorithm Markov deci

基于Markov决策过程的列控系统定量安全分析方法

为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用......

期刊

列控系统定量安全分析 MARKOV决策过程概率模型检验 train control system quantitative safety analysis

一类值函数激励学习的遗忘算法

大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题.将记忆心理学中有关遗忘的基本原理引入值函数的激励学......

期刊

激励学习 SARSA(λ)算法 MARKOV决策过程遗忘算法值函数人工智能 reinforcement learning SARSA(λ) algori

一种面向仿真的分布式多智能体层次问题求解算法

多智能体分布问题求解复杂度与其组织结构紧密相关,在层次组织中进行多层问题抽象以及子问题并行求解,可以将复杂度为指数规模问题......

期刊

多智能体仿真 MARKOV决策过程智能体组织计算复杂度

看过本文同时还关注