连续空间中的随机技能发现算法

来源 :现代电子技术 | 被引量 : 0次 | 上传用户：s66_ch

【摘要】

：

针对大规模、连续空间随着状态维度指数级增加造成的"维数灾"问题,提出基于Option分层强化学习基础框架的改进的随机技能发现算法。通过定义随机Option生成一棵随机技能树,构造一个随机技能树集合。将任务目标分成子目标,通过学习低阶Option策略,减少因智能体增大而引起学习参数的指数增大。以二维有障碍栅格连续空间内两点间最短路径规划为任务,进行仿真实验和分析,实验结果表明:由于Option被随机

【作者】

：

栾咏红刘全章鹏

【机构】

：

苏州工业职业技术学院,苏州大学计算机科学与技术学院,吉林大学符号计算与知识工程教育部重点实验室

【出处】

：

现代电子技术

【发表日期】

：

2016年05期

【关键词】

：

强化学习 OPTION 连续空间随机技能发现 reinforcement learning Option continuous space random

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

地区为主中央补做好乡村教师生活补助工作

教育部、财政部2013年9月13日印发《关于落实2013年中央1号文件要求对在连片特困地区工作的乡村教师给予生活补助的通知》（以下简称《通知》），决定对连片特困地区义务教育乡、村

期刊

乡村教师生活补助中央《通知》文件要求义务教育记者提问教育部

区域活动的常规建立

区域活动是幼儿最快乐的活动，区域活动充分体现了幼儿身心发展的特点，可满足幼儿活动和游戏的需要，更好地促进幼儿自然、自由、快乐、健康地成长．实现“玩中学”、“做中学”。但

期刊

区域活动幼儿活动游戏材料“玩中学”“做中学”身心发展快乐整理

存储时尚先锋，威刚PD18闪盘惊艳亮相

最近，威刚又推出全新一款时尚闪存产品——PD18闪盘，给喜欢时尚数码的年轻一族带来最新的选择。威刚PD18融入时尚设计，外形小巧可爱，采用了铝合金材质作为外壳，具有不错的质感。有

期刊

时尚设计闪盘存储闪存产品合金材质用户选择橡胶材质粉红色

基于小波分析的逆变电路故障诊断方法研究

针对逆变电路受到输入电压不稳定性等因素的影响时容易产生故障的问题，提出一种基于小波分析的逆变电路故障诊断方法。构建逆变电路的电压、电流和功率的输入/输出模型，确定电

期刊

小波分析逆变电路故障诊断特征提取wavelet analysisinverter circuitfault diagnosisfeature ex

基于CHIPIC软件的旭日型可调谐相对论磁控管的研究

理论推导了相对论磁控管中电子与高频场的互作用机理,采用CST软件研究冷腔状态下磁控管的π模频率,采用CHIPIC软件对磁控管进行三维粒子模拟研究,对比了10腔旭日型可调谐相对

期刊

相对论磁控管旭日型可调谐磁控管CHIPIC互作用机理relativistic magnetron sun-rising tunable magnetr

中世纪母亲们的生育经

过去，对于女人来说，生孩子对母婴都是件十分危险的事，像难产那样的并发症是很可怕的。生产过程中的失误和因此导致的死亡对母婴来说经常发生。即使没有任何并发症，母亲也得经受长

期刊

母亲生育生产过程并发症小房间难产死亡

中央农村工作会议年前在北京举行会议高度关注的十二大热点问题

必须坚持把解决好“三农”问题作为全党工作重中之重，坚持工业反哺农业、城市支持农村和多予少取放活方针不断加大强农惠农富农政策力度，始终把“三农”工作牢牢抓信、紧紧抓好

期刊

中央农村工作会议十二大行会北京“三农”问题工业反哺农业城市支持农村“三农”工作

电动汽车重载嵌入式连接器故障智能检测技术研究

连接器是电动汽车故障发生概率最高的部件，为了确保电动汽车的顺利运行，研究电动汽车重载嵌入式连接器故障智能检测技术，具有重要意义。对连接器故障智能检测系统的软件结构以及

期刊

电动汽车重载嵌入式连接器故障智能检测检测电路electric vehicle overloading embedded connector faul

基于k-空间格林函数的近场声全息滤波方法研究

基于Neumann边界条件下的空间声场变换主要采用k？空间格林函数法, 为保证该算法的稳定性与可靠性, 声场重构过程必须采取波数滤波处理.针对固定截止波数不能适应滤波要求的局

期刊

近场声全息格林函数波数域滤波截止波数信噪比NAHGreen functionk-space filteringcutoff wavenum

阿魏酰低聚糖的生理功能及其在动物生产中的应用前景

阿魏酰低聚糖(FOs)是由阿魏酸羧基与低聚糖羟基通过酯键联接而成的一种阿魏酰衍生物,其可通过酸、酶以及发酵处理植物细胞壁获得。FOs因具有抗氧化、调节免疫及益生等多种生

期刊

阿魏酰低聚糖生理功能应用前景feruloylated oligosaccharidephysiological functionapplication

连续空间中的随机技能发现算法

其他学术论文