连续空间中的随机技能发现算法

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:s66_ch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模、连续空间随着状态维度指数级增加造成的"维数灾"问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法。通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合。将任务目标分成子目标,通过学习低阶Option策略,减少因智能体增大而引起学习参数的指数增大。以二维有障碍栅格连续空间内两点间最短路径规划为任务,进行仿真实验和分析,实验结果表明:由于Option被随机定义,因此算法在初始性能上具有间歇的不稳定性,但是随着随机技能树集合的增加,能较快地收敛到近似最优解,能
其他文献
区域活动是幼儿最快乐的活动,区域活动充分体现了幼儿身心发展的特点,可满足幼儿活动和游戏的需要,更好地促进幼儿自然、自由、快乐、健康地成长.实现“玩中学”、“做中学”。但
针对逆变电路受到输入电压不稳定性等因素的影响时容易产生故障的问题,提出一种基于小波分析的逆变电路故障诊断方法。构建逆变电路的电压、电流和功率的输入/输出模型,确定电
理论推导了相对论磁控管中电子与高频场的互作用机理,采用CST软件研究冷腔状态下磁控管的π模频率,采用CHIPIC软件对磁控管进行三维粒子模拟研究,对比了10腔旭日型可调谐相对
过去,对于女人来说,生孩子对母婴都是件十分危险的事,像难产那样的并发症是很可怕的。生产过程中的失误和因此导致的死亡对母婴来说经常发生。即使没有任何并发症,母亲也得经受长
连接器是电动汽车故障发生概率最高的部件,为了确保电动汽车的顺利运行,研究电动汽车重载嵌入式连接器故障智能检测技术,具有重要意义。对连接器故障智能检测系统的软件结构以及
基于Neumann边界条件下的空间声场变换主要采用k?空间格林函数法, 为保证该算法的稳定性与可靠性, 声场重构过程必须采取波数滤波处理.针对固定截止波数不能适应滤波要求的局
阿魏酰低聚糖(FOs)是由阿魏酸羧基与低聚糖羟基通过酯键联接而成的一种阿魏酰衍生物,其可通过酸、酶以及发酵处理植物细胞壁获得。FOs因具有抗氧化、调节免疫及益生等多种生