马尔科夫决策过程(MDP)相关论文
在逆向物流中,再制造零部件的数量具有不确定性.根据这一特点,将其看成是随机参数,给出了再制造/制造系统集成库存模式.基于市场对......
期刊
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把......
针对DQN算法在工业环境维度或动作维度极高的情况下训练速度慢、不易收敛、复用性差的问题,提出了构建等价环境的方法,该方法基于M......
考虑到在越来越复杂的网络安全环境中变电站的防御能力对于维持电网安全稳定运行具有重要意义,文章提出了一种基于马尔可夫决策过......
针对自然语言指令对远程移动机器人导航控制中自然语言理解达不到要求这一问题,提出通过人机对话提高机器人对自然语言指令理解的......