【摘 要】
:
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法,它通过引
论文部分内容阅读
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法,它通过引入宏,把任务按照一定的层次进行分解,并只在调用子任务时才进行决策。传统的Option算法基本上是建立在离散时间半马尔可夫决策过程和折扣准则基础上,不能很好的解决连续时间无穷任务问题。因此,论文根据Option算法的研究现状,考虑实际环境模型中的时间累积回报,以及在大规模系统中平均准则的优越性,重点研究折扣或平均准则的连续时间统一Option优化算法,用于解决连续时间单Agent或多Agent系统中无穷任务问题。论文首先以单Agent系统为研究背景,在连续时间半马尔可夫决策过程数学模型和性能势理论框架下,结合现有Option算法思想,给出一种适用于平均或折扣性能准则的连续时间单Agent统一Option分层强化学习模型和学习优化算法,用于解决连续时间无穷任务问题。另外,通过机器人垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势。其次,论文以多Agent系统为研究背景,在连续时间多Agent半马尔可夫数学模型和性能势理论下,结合上面构造的连续时间统一Option算法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均或折扣性能准则的多Agent连续时间统一Option分层强化学习模型和学习优化算法,用于解决连续时间多Agent无穷任务问题。另外,通过多Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有节约存储空间、优化精度高和优化速度快的优势。
其他文献
随着计算机网络的发展,网络安全问题受到人们越来越多的关注。密码学成为保护信息安全的一个重要手段,其中公钥密码体制更是凭借其自身的特点在信息安全领域发挥着巨大的作用。
天然气因其安全可靠、洁净环保的优点受到广泛的应用,目前,我国城市用气规模不断扩大,燃气管网也越来越复杂和庞大,对燃气管网的建设、维护、调峰以及储气等方面的要求也不断
在当前的各类视频编码标准中,运动估计和运动补偿一直都是视频编码的核心技术。一方面,运动估计的准确性是衡量图像是否失真的关键,准确性越高,图像的失真率就越低,视频图像
随车起重机作为综合起重和运输为一体的新型高效起重运输设备,已经逐渐受到大量用户的认可和接纳。由于液压系统是随车起重机工作系统中非常重要的部分,同时支腿机构在工作中用以支撑起重机的全部重量,它的稳定性关系到起吊物体过程的安全可靠,因此本文重点对支腿液压回路进行研究与优化。本文以某SQ5型随车起重机为研究对象,对起重机起升回路、伸缩回路、回转回路和支腿回路进行简单的研究分析,并通过计算确定其主要元件参
随着图形处理器(GPU,Graphics Processing Unit)计算能力不断提升,图形学中的仿真算法成为研究热点。基于牛顿力学的仿真算法被广泛应用于各类仿真系统中,包括游戏、电影、医疗
带时间约束条件的弧路径问题属于带容量限制弧路径优化问题(CARP)的一个扩展,在CARP的基础上对某些关键路径做出了时间限制,这种扩展有着实际的应用意义,比如在某些城市主干道中只
人脸识别技术在电子商务、日常生活等领域得到非常广泛的应用,也是几十年来模式识别和计算机视觉中的研究热点之一。但是在实际应用中,人脸图像是在不受控环境下获取的,而且
随着Internet的迅速发展,很多问题已经出现,比如说IPv4地址的短缺,严重阻碍了IP网络的发展,成为了这些问题中急切需要解决的一个问题。为了解决这一问题,出现了NAT服务和IPv6
电力调度自动化系统是在线为调度机构生产运行人员提供电力系统运行信息、分析决策和控制的综合系统。目前调度自动化系统的数据分析系统一直是弱项,大量数据没有得到充分利用。本文在充分分析了数据挖掘的理论和关联规则挖掘算法,在研究了传统了时态关联规则和周期性关联规则挖掘的基础之上,结合蚁群算法改进了原有的周期性挖掘算法,使之在运算速度上有了很大提高,并将之应用到了电力调度自动化系统的数据分析子系统中,设计完
在火灾安全领域,为了使群众的利益远离火灾威胁,现在已经出现了很多火灾检测手段。目前,市场主流的火灾检测产品是基于传感器式的,在私人住宅、大型商场、工厂车间等场所中,