行动者-评论家相关论文
在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,本文将异步优势行动者评论家算......
为了解决强化学习行动者-评论家框架下双延迟深度确定性策略梯度算法的低估计问题,提出了一种基于多估计器平均值的深度确定性策略......
无模型深度强化学习算法作为强化学习中的一种主要算法,其最大特点是在不对环境建模的情况下,通过与环境不断交互自主的进行学习。......
作为研究最广泛的一类组合优化问题,作业调度问题是现实社会中交通、物流、工厂等领域实际问题的抽象模型。组合优化问题中约束条......
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的......
旅行商问题(Traveling Salesman Problem,TSP)是一个典型的NP难问题,它具有重要的理论研究意义和广泛的实际应用价值。首先介绍了T......
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行......
舰载机是航空母舰的重要战斗力量,舰载机在航母上的安全起降始终都是航母/舰载机系统顺利完成战斗任务的重点与难点。我国目前已经......