分层强化学习相关论文
调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学......
为了有效解决电动汽车充电目的地优化和充电路径规划问题,以及充电引导的在线实时决策问题,建立了考虑多种不确定因素的电动汽车充电......
自主代客泊车应用场景封闭,场景内车辆行驶速度低,被认为是自动驾驶领域最先实现应用的技术。路径规划作为自主代客泊车系统的关键......
无人地面车辆(Unmanned Ground Vehicle)是社会高速发展的时代产物,推动相关技术已成为国际竞争的新焦点。自主导航(navigation)是UGV......
随着深度学习技术的蓬勃发展,对话系统的研究和应用迅速增长,如Siri、Cortana、谷歌助手等。相应地,这些产品也成为长辈和孩子的情......
强化学习是目前的一种通过与环境交互试错来学习出最优策略的机器学习领域,相较于给定数据集的监督学习,强化学习其自主与环境交互......
随着车联网技术的不断发展,给人们的出行生活带来了很多的便利。面对迅速增加的车载用户,车联网将产生大量的服务请求信息。这些大......
移动机器人在经济社会中有着广泛的应用,覆盖了工业、农业、商业等领域。自主导航能力是移动机器人最基础的功能,移动机器人的其他......
针对战场通信对抗智能决策问题,该文基于整体对抗思想提出一种基于自举专家轨迹分层强化学习的干扰资源分配决策算法(BHJM),算法针......
近年来,人们在强化学习领域的研究已经取得了令人瞩目的成就。然而在场景较为复杂时,传统的强化学习算法面临维度灾难以及长期信度分......
摘要:针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基......
随着各个科技领域的进步,移动机器人应用越来越广泛,移动机器人的研究与开发也越来越受到人们的重视。在移动机器人的研究中,路径......
强化学习通过试错与环境交互而获得策略的改进,其自学习和在线学习的特点使其在实际中获得了越来越广泛的应用。但是,强化学习一直......
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运......
Web服务作为一种新兴的Web应用模式,是Web上数据和信息集成的有效机制。它被定义为使用标准的技术与其他服务进行交互的软件模块和......
针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题......
具有抽象机制的分层强化学习方法可以实现状态空间的降维,从而解决大规模系统中的“维数灾”问题。由于引入了状态抽象机制,分层强......
为了满足迸发的通信需求,实现未来6G“万物互联”的愿景,空基、天基与地基网络呈现出一体化的趋势。与传统的通信网络系统对比,在......
近些年,在医疗体制改革政策的影响下,医药行业得到了迅猛发展,药品市场的需求不断地增长。制药企业作为国内医药行业的重要组成部......
近年来随着人工智能领域的飞速发展,强化学习算法作为人工智能领域的经典算法受到了广泛的关注与研究。而稀疏奖励问题作为强化学......
自主水下机器人(Autonomous Underwater Vehicle,AUV)可用来完成水下复杂而繁重的任务,是未来海洋勘测以及水下能源开发重要的工具......
分层强化学习在经典强化学习的MDP框架上引入抽象机制,从动作、任务和策略等角度对学习任务分解,构建分层机制,在抽象内部和抽象间的......
针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化......
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但强化学习方法一直被......
分层强化学习方法可用于解决维数灾难问题,MAXQ方法通过分层地分解值函效,将任务分解为不同层次上的子任务,从而只需在低维空间中......
强化学习是机器学习领域的一个重要分支,但在强化学习系统中,学习的数量会随着状态变量的个数成指数级增长,从而形成“维数灾”。为此......
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(HierarchicalReinforcementLearnin......
分层强化学习是为了解决强化学习“维数灾”的问题而提出的。Options的分层结构使Agent能更高效地完成学习任务,但通常Options的学......
提出了一种新的分层强化学习(HRL)Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,并采用改进的蚁群聚类算法(ACCA)对......
近年来强化学习愈发体现其强大的学习能力,2017年AlphaGo在围棋上击败世界冠军,同时在复杂竞技游戏星际争霸2和DOTA2中人类的顶尖......
在学习过程中自动发现有用的Subgoal,对于分层强化学习有着重要的意义。文章提出了一种最小k-聚类算法,该算法能通过对在线获取的少......
为解决分层强化学习中现有的自动分层方法对环境和状态空间特性依赖过强的问题,提出了一种基于免疫聚类的自动分层强化学习方法.该方......
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提......
在学习过程中自动发现有用的Subgoal并创建Option,对提高强化学习的学习性能有着重要意义.提出了一种基于k-聚类的Subgoal自动发现......
针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并......
现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时......
自适应巡航控制(Adaptive Cruise Control System,ACC,下同)又称主动巡航控制。作为一种高级驾驶辅助功能,自适应巡航控制系统通过......
智能水下机器人(Autonomous Underwater Vehicle,AUV)是海洋资源开发的关键装备技术之一,随着作业任务越来越复杂,对AUV自主决策能......
游戏AI是人工智能和游戏领域结合的产物,是强化学习领域的重要实验载体。强化学习解决的是序贯决策问题,与游戏中的智能体决策不谋......
人工智能技术自诞生之日起,就不断地发展壮大,并且在许多领域的实际应用中取得了很好的效果。其中既有深度学习感知能力,又有强化......
强化学习从属于机器学习领域并且是一个重点研究方向,一般用来处理序贯决策问题。其主要应用于众多带有交互性和决策性的问题,这些......
为加快分层强化学习中任务层次结构的自动生成速度,提出了一种基于多智能体系统的并行自动分层方法,该方法以Sutton提出的Option分层......
如何在线找到正确的子目标是基于option的分层强化学习的关键问题.通过分析学习主体在子目标处的动作,发现了子目标的有效动作受限的......
自动构造抽象动作一直是分层强化学习研究中的关键技术之一。抽象动作链接算法是目前连续任务中自主发现抽象动作的典型算法,但是......