策略梯度算法相关论文
小车倒立摆系统是一种具有非线性、强耦合、多变量、欠驱动等特性的自然不稳定系统,倒立摆系统的稳定控制是控制理论中的典型问题。......
车间作业调度问题(Job Shop Scheduling Problem,简称JSP)是经典的组合优化问题,也是最早被证明为NP-hard的问题之一。在如今的工业......
二维矩形条装箱问题(Two-Dimensional Strip Packing Problem,2D-SPP):给定矩形条的宽度W固定,高度H不固定,以及一组小矩形{(w1,h1),(w2......
深度确定性策略梯度算法(DDPG)是一种用途广泛的深度强化学习方法,但它往往会受到梯度估计不稳定的影响.最近的一些方法(如近端策......
针对未知复杂环境下无人机集群协同定位导航中算法计算量过大的问题,本文提出了两种深度强化学习的无人机集群协同信息筛选方法,将多......
目前在深度强化学习方法中,大多数算法都局限于稳定性低和低可复性。而最近的一些方法(如近端策略优化算法PPO)只是限制在较低速度......
针对区块链中工作量证明共识机制(Proof of Work,PoW)下区块截留攻击导致的挖矿困境问题,将矿池间的博弈行为视作迭代的囚徒困境模......
为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演......
策略梯度优化算法是一种很重要的强化学习算法,对实现机器人的自主导航有着重要的应用价值。在部分可观Markov决策过程(POMDP)的基......