稀疏奖励相关论文
调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学......
在搜救领域中,透过程序完成半自主或自主飞行控制,无人机能够协助救难人员更好地完成救援任务。搜救任务中涉及到多个目标间的搜索,相......
飞行器空战智能决策是当今世界各军事强国的研究热点。为解决近距空战博弈中无人机的机动决策问题,提出一种基于深度强化学习方法的......
从上世纪末起,智能无人武器在全球范围内几次重大的局部性战争中可谓出尽了风头,而随着本世纪初人工智能技术的又一次爆发增长,人......
针对传统深度强化学习中移动机器人在稀疏奖励环境下只有在规定时间步内到达目标位置才能得到积极奖励,中间过程的每一步都是负面......
在面向持续集成测试用例优先排序(continuous integration test case prioritization,CITCP)的强化学习方法中,智能体通过对测试用......
奖励函数的设置对强化学习任务的策略求解有很大的影响。对于新环境探索等任务,奖励函数通常是稀疏的,即只在少数状态下返回高价值......
随着航空航天事业的高速发展,越来越多的飞行器采用群体或多体协同的方式执行任务,呈现出典型的多智能体特征,适于使用多智能体理......
为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避......
文中在多智能体对抗问题研究过程中,采用强化学习为研究方法,以完全中心化训练架构为基础,选用基于策略的强化学习算法,针对领域研......
深度强化学习作为一种模仿人类学习过程的人工智能方法,为许多复杂问题提供了解决方法,受到了广泛的研究与关注。把深度强化学习应......
在强化学习中,当处于奖励分布稀疏的环境时,由于无法获得有效经验,智能体收敛速度和效率都会大幅下降.针对此类稀疏奖励,文中提出......
针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜......
近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与......
随着几年前DeepMind开发的人工智能围棋程序的爆炸新闻,以及后续的AlphaZero在日本将棋上的大放异彩,还有后来OpenAI在电子竞技游......
一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强......
深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著......