Fast-PPO:快速近端策略优化算法

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lincl008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前在深度强化学习方法中,大多数算法都局限于稳定性低和低可复性。而最近的一些方法(如近端策略优化算法PPO)只是限制在较低速度下进行策略更新以保持稳定性。在本文中,我们在Advantage Actor-Critic算法(A2C)架构下对问题进行建模,进行进一步分析。本文在策略梯度算法家族中,通过分析其策略更新不稳定及其在离散状态的局限性,结合PPO算法的梯度不相关的优异性和在离散状态下的适应性,提出一种新的算法——Fast-PPO,以获得更好梯度估计。该算法通过利用最优基线,提高了回报极限,同时加快了收敛速度。我们在理论上证明了Fast-PPO中回报函数的上下界。并用目前流行的高维连续基准实验进行测验,以说明算法的优异性。在扩展实验中,首先在稳定的环境中,Fast-PPO比其他的算法有更广的运用范围。其克服了Q-learning系列算法仅仅用于离散空间和PG(策略梯度)系列算法仅仅只用于连续空间的缺点。Fast-PPO无论在离散还是连续空间都具有一定的优势。其次,针对多智能环境,Fast-PPO算法运用到Tennis游戏,足球游戏,实现多智能体控制,实验证明Fast-PPO在多智能体的合作和对抗上也有充分的优势。最后,将Fast-PPO算法运用到复杂环境中,如柯基捡木棍和无人机控制。柯基捡木棍具有一定的生活乐趣。而无人机的训练是当今军事中训练的热点,也是未来是否能够在空中作战取得胜利的关键。在目前的RL算法中,Fast-PPO算法在无人机的控制上,几乎能够应对现在无人机的路径规划问题,具有一定的现实意义。
其他文献
【正】 不久前,一邻居夫妻二人出去串门,将正在液化气灶上烧水之事托付给在家玩耍的十岁儿子,并叮嘱水开之后将气阀关紧。谁知他俩走后,小孩将此事忘到九霄云外。水开溢出将
【正】 事情就是这么蹊跷,有时还真令人犯难。莉莉的男朋友田林和她说得好好的,晚上一起去参加一个晚会,8点剧场门口不见不散。据说,这场由消防支队主办的晚会,在京城请来了
目的 观察六味地黄丸对糖尿病肾病大鼠血清TNF-α、IL-6表达水平的影响及肾脏保护机制的研究。方法 复制DN大鼠模型,将其分为正常组、模型组、治疗组(六味地黄丸高、中、低剂
下乡公司与家庭农场是旨在调试和改变农民家庭生产组织形式及资源配置状态两种不同的现代农业经营方式。近年来,由于外生型公司下乡对乡村治理的冲击,乡村治理存在现实困境:
目的:通过观察六味地黄丸对脑瘫模型大鼠神经行为学、脑组织病理形态学和脑组织单胺类神经递质的影响,初步探讨六味地黄丸治疗小儿脑瘫的作用机制,为临床治疗小儿脑瘫提供可
镍铁渣是工业镍铁冶炼过程中产生的固体废渣,是一种潜在的混凝土的矿物掺合料。本文选取三种电炉镍铁渣粉和两种高炉镍铁渣粉,研究了常温和高温养护条件下两类镍铁渣粉在水泥
【正】 随着我国经济建设的迅速发展,高层建筑如雨后春笋般耸立在祖国大地上。高层建筑的出现,势必给消防工作带来许多新课题。 高层建筑从外表来看,都是不燃或难燃材料组成
【正】 张萱是盛唐与中唐之际的著名画家,京兆(今西安)人,做过当时名为“画直”的绘画官,善画人物,工于描绘贵族男子和闺房中的秀美的女子,尤其擅长画婴儿。画妇女,用朱色晕
【正】 男人粗心,女人心细。这个观点我不赞成。 我平时在家就注意防火,一是电源,二是液化气。我不吸烟,否则也会小心烟蒂的。细心丈夫偏偏娶了一位粗心的老婆。每次做完饭,
目的观察不同频率一指禅推对脾虚新西兰兔行为学表征、生化及GAS的影响。方法取成年新西兰兔48只,随机分为空白对照组(K组)、模型对照组(P组)、治疗组1(A组)、治疗组2(B组)、