分层强化学习相关论文
调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学......
为了有效解决电动汽车充电目的地优化和充电路径规划问题,以及充电引导的在线实时决策问题,建立了考虑多种不确定因素的电动汽车充电......
自主代客泊车应用场景封闭,场景内车辆行驶速度低,被认为是自动驾驶领域最先实现应用的技术。路径规划作为自主代客泊车系统的关键......
无人地面车辆(Unmanned Ground Vehicle)是社会高速发展的时代产物,推动相关技术已成为国际竞争的新焦点。自主导航(navigation)是UGV......
在输电线路的设计中,使用三维数字化设计技术可以显著提升地形的划分精度,然而地形划分精度的提升会使得地形栅格矩阵维度呈指数级......
随着深度学习技术的蓬勃发展,对话系统的研究和应用迅速增长,如Siri、Cortana、谷歌助手等。相应地,这些产品也成为长辈和孩子的情......
针对超车过程中主车和被超越车之间的交互行为,引入心理学中的“社会偏好”来描述被超越车辆的纵向行为特征,并通过数据驱动的分类......
对于装配序列规划问题,现有算法大多聚焦于单一的目标构型.对于多目标构型以及大规模问题,现有算法往往存在维数灾难及泛化能力差......
强化学习是目前的一种通过与环境交互试错来学习出最优策略的机器学习领域,相较于给定数据集的监督学习,强化学习其自主与环境交互......
随着车联网技术的不断发展,给人们的出行生活带来了很多的便利。面对迅速增加的车载用户,车联网将产生大量的服务请求信息。这些大......
移动机器人在经济社会中有着广泛的应用,覆盖了工业、农业、商业等领域。自主导航能力是移动机器人最基础的功能,移动机器人的其他......
传统用于解决多Agent系统的分层强化学习(Hierachical Reinforcement Learning,HRL),基本上是建立在离散时间多Agent半马尔科夫决策......
针对战场通信对抗智能决策问题,该文基于整体对抗思想提出一种基于自举专家轨迹分层强化学习的干扰资源分配决策算法(BHJM),算法针......
近年来,人们在强化学习领域的研究已经取得了令人瞩目的成就。然而在场景较为复杂时,传统的强化学习算法面临维度灾难以及长期信度分......
以动态环境下的机器人导航为例,研究了机器人在任务复杂、物体随机出现等情形下的潜在动作预测方案.采用层次结构描述机器人的任务......
摘要:针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基......
随着各个科技领域的进步,移动机器人应用越来越广泛,移动机器人的研究与开发也越来越受到人们的重视。在移动机器人的研究中,路径......
为了解决软件复杂性危机,学术界和产业界提出了自主计算的概念.自主计算的核心是使计算机系统具有自管理能力,包括自配置、自优化......
强化学习通过试错与环境交互而获得策略的改进,其自学习和在线学习的特点使其在实际中获得了越来越广泛的应用。但是,强化学习一直......
多agent系统的研究是当今人工智能和自动化控制领域的最前沿方向。多agent系统在各行各业中都表现出了极大的应用性,其自身所具有......
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运......
Web服务作为一种新兴的Web应用模式,是Web上数据和信息集成的有效机制。它被定义为使用标准的技术与其他服务进行交互的软件模块和......
针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题......
具有抽象机制的分层强化学习方法可以实现状态空间的降维,从而解决大规模系统中的“维数灾”问题。由于引入了状态抽象机制,分层强......
在强化学习的实际应用中,“维数灾难”问题一直困扰着其发展。虽然“维数灾难”问题是由待解决问题的本质所决定的,无法从根本上进......
针对传统的欠驱动无人自主水下航行器路径跟踪技术依赖于精确的运动模型,且在三维空间中的应用存在着理论推导复杂、实际应用价值......
期刊
近些年,在医疗体制改革政策的影响下,医药行业得到了迅猛发展,药品市场的需求不断地增长。制药企业作为国内医药行业的重要组成部......
近年来随着人工智能领域的飞速发展,强化学习算法作为人工智能领域的经典算法受到了广泛的关注与研究。而稀疏奖励问题作为强化学......
自主水下机器人(Autonomous Underwater Vehicle,AUV)可用来完成水下复杂而繁重的任务,是未来海洋勘测以及水下能源开发重要的工具......
动态Web服务组合近年来作为一个极具挑战性的问题正吸引着越来越多的人的关注.但是,目前主流的动态服务组合方法在面对大规模服务组......
当今电子商务发展非常迅速,已经逐步形成了一个潜力巨大的市场。随着Internet上信息量和商务量爆炸式增长、网络环境日益复杂,以及产......
分层强化学习在经典强化学习的MDP框架上引入抽象机制,从动作、任务和策略等角度对学习任务分解,构建分层机制,在抽象内部和抽象间的......
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.但是,强化学习一直被......
针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSO-HPS).首先由设计者按照经典分层强化......
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但强化学习方法一直被......
分层强化学习方法可用于解决维数灾难问题,MAXQ方法通过分层地分解值函效,将任务分解为不同层次上的子任务,从而只需在低维空间中......
分层强化学习可以有效解决强化学习的维度灾难问题,在解决迁移学习问题、提高泛化性、加快学习速度等方面具有巨大的潜能,同时在自......
以动态环境下的机器人导航为例,研究了机器人在任务复杂、物体随机出现等情形下的潜在动作预测方案.采用层次结构描述机器人的任务......
强化学习是机器学习领域的一个重要分支,但在强化学习系统中,学习的数量会随着状态变量的个数成指数级增长,从而形成“维数灾”。为此......
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(HierarchicalReinforcementLearnin......
首先介绍了强化学习基本原理,分析了马尔科夫决策过程与半马尔科夫决策过程的理论基础及其在强化学习中的应用,其次阐述了分层强化学......
分层强化学习是为了解决强化学习“维数灾”的问题而提出的。Options的分层结构使Agent能更高效地完成学习任务,但通常Options的学......
提出了一种新的分层强化学习(HRL)Option自动生成算法,以Agent在学习初始阶段探测到的状态空间为输入,并采用改进的蚁群聚类算法(ACCA)对......
近年来强化学习愈发体现其强大的学习能力,2017年AlphaGo在围棋上击败世界冠军,同时在复杂竞技游戏星际争霸2和DOTA2中人类的顶尖......
在学习过程中自动发现有用的Subgoal,对于分层强化学习有着重要的意义。文章提出了一种最小k-聚类算法,该算法能通过对在线获取的少......