基于可中断Option的在线分层强化学习方法

来源 :通信学报 | 被引量 : 0次 | 上传用户:chi2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。
其他文献
通过对桩侧荷载传递机理的分析,建立出一种改正的能综合考虑实际工程中桩周土体加工软化和加工硬化等不同性状、桩侧阻的深度效应、不同桩侧土类以及不同成桩工艺等因素影响
本文通过室内外试验.证明活化沸石去除氨氮容量较高,是一种优良氨氮去除新材料。同时.考察了粒径、滤速等对沸石除氨氮效果的影响。
物业管理事关老百姓切身利益,已成为社会各界关注的热点问题。分析物业管理活动中的各种法律关系,有助于明确各方权利义务,规范各方行为,推进物业管理法制化进程。 Property
电力电缆在输配电系统中使用的比例不断提高,其可靠性对电网安全稳定运行具有重要影响。局部放电是导致电力电缆发生故障的主要原因,及时有效地检测电力电缆局部放电,对于发
围网捕捞具有渔获相对集中,数量多,鱼发变化幅度也较大的几个特点。为解决渔获的运输问题,根据各国的具体条件,大体有两种不同的形式。如日本在基本常年作业的前提下,采取捕捞与运
在压水堆核电站中,一回路与二回路的换热是通过蒸汽发生器这一设备进行的。作为一回路和二回路之间的枢纽,其作用不仅是将一回路冷却剂从堆芯带出的热量传给二回路,它还是分
根据我国铁路客运专线建设和运营管理模式,提出铁路局运营部门应提前介入做好客运专线建设和运营准备工作,通过控制好工程建设质量,组织好客运专线开通前的联调联试,以及建立
本文采用优化计算和轧制理论相结合的方法,研究4200轧机机座刚度数学模型,并将设备改造问题的物理模型转变为数学模型.
象征,是世界范围内普遍存在的文化现象,在中国这样一个讲求"含蓄、内敛"的国度尤盛.高耸的宝塔、朦胧的诗歌、精美的纹饰及至饮食、衣饰、礼仪等等,无不包含着表现意义背后的
热毒宁的通用名称为热毒宁注射液,本品为淡黄棕色的澄明液体,味苦。主要用于清热、疏风、解毒,用于上呼吸道感染(外感热证)所致的高热、微恶风寒、头痛、痰黄等症状。清开灵名