基于重要性采样的优势估计器

来源 :通信学报 | 被引量 : 0次 | 上传用户：chenmojay

【摘要】

：

在连续动作任务中,深度强化学习通常采用高斯分布作为策略函数。针对高斯分布策略函数由于截断动作导致算法收敛速度变慢的问题,提出了一种重要性采样优势估计器(ISAE)。该估

【作者】

：

刘全姜玉斌胡智慧

【机构】

：

苏州大学计算机科学与技术学院,苏州大学江苏省计算机信息处理技术重点实验室,吉林大学符号计算与知识工程教育部重点实验室,软件新技术与产业化协同创新中心

【出处】

：

通信学报

【发表日期】

：

2019年5期

【关键词】

：

强化学习重要性采样深度强化学习优势函数

【基金项目】

：

国家自然科学基金资助项目(No.61772355,No.61702055,No.61472262,No.61502323,No.61502329);江苏省高等学校自然科学研究重大基金资助项目(No.18KJA520011,No.17KJA520004);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(No.93K172014K04,No.93K172017K18);苏州市应用基础研究计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在连续动作任务中,深度强化学习通常采用高斯分布作为策略函数。针对高斯分布策略函数由于截断动作导致算法收敛速度变慢的问题,提出了一种重要性采样优势估计器(ISAE)。该估计器在通用优势估计器(GAE)的基础上,引入了重要性采样机制,通过计算边界动作的目标策略与行动策略比率修正截断动作带来的值函数偏差,提高了算法的收敛速度。此外,ISAE引入了L参数,通过限制重要性采样率的范围,提高了样本的可靠度,保证了网络参数的稳定。为了验证ISAE的有效性,将ISAE与近端策略优化结合并与其他算法在 MuJoCo平台上进

其他文献

“原本性”视域下的小学闽南童谣教学思考

本文尝试以音乐"三要素"模式为基础,探究在"原本性"视域下小学闽南童谣的教学方法,即从了解童谣背后的音乐文化观念,到亲自参与整体性、即兴性的童谣表演,最后自然生成对童谣

期刊

原本性闽南童谣小学音乐教学

谈小学音乐课堂的预设和生成

<正>一堂成功有效的音乐课既离不开预设,也不能没有生成,但完全按照预设进行的教学,将会导致无视或忽视孩子学习的自主性。如果一味追求课堂上即时的"生成",这堂课看似热热闹

期刊

休止符约瑟夫小学音乐课堂音乐课堂教学约翰·施特劳斯精心预设

茶叶中锗、硒的电感耦合等离子体质谱法分析

采用微波消解，电感耦合等离子体质谱（ICP-MS）法测定茶叶中锗、硒元素。对样品前处理方法进行了研究，从消解体系、酸用量、消解程序等方面对微波消解条件进行了优化。在优化实验条

期刊

电感耦合等离子体-质谱法微波消解茶叶锗硒

理性主义与功利主义高等教育思想的冲突与融合

理性主义与功利主义是主导高等教育领域的两种主要思想。本文通过对理性主义与功利主义高等教育思想的冲突与融合进行论述,揭示了高等教育的发展方向,为我国的高等教育发展提

期刊

理性主义功利主义高等教育思想冲突融合

聂莉芳治疗慢性肾功能衰竭经验

聂莉芳教授是中国中医研究院西苑医院肾病科主任、主任医师、博士生导师,北京中医药学会肾病专业委员会主任委员,专门从事肾病临床工作近30年,对慢性肾功能衰竭的中医治疗积

期刊

慢性肾功能衰竭关格辨证论治老中医经验

利用水稻功能基因SSR标记鉴定水稻种质资源

利用 16对水稻功能基因的SSR引物研究了 2 3份世界 5个国家不同来源的水稻种质资源的遗传多样性 ,共检测出 78个等位基因变异 ,每对引物可检测 2～ 10个等位基因变异 ,平均为 5

期刊

水稻种质资源SSR聚类分析

基于情绪导向的产品设计色彩研究

本论文通过色彩情绪化导向进行分析,更为深入透过产品色彩的情绪导向应用原则去挖掘产品设计色彩背后的情绪化表现意义,为我国未来产品设计色彩情绪化导向设计提供更为广阔的

期刊

情绪导向产品设色彩

聚“音乐素养” 研“深度学习”

<正>11月13日-14日,杭州市中小学音乐"立足素养深度学习"研讨活动暨中小学音乐教学专业委员会年会在杭州长江实验小学隆重举行,此次活动由杭州市基础教育研究室主办,下城区教

期刊

音乐素养杭州市教研员教师教育学院中小学音乐教学中小学音乐教育深度学习

两晋时期士人“仕而不事”心态剖析——以《庄子注》为中心

“学而优则仕”是中国古代士人的座右铭。但是,《庄子注》却提出了一个令人感到不可思议的主张:仕而不事,即士人可以出仕做官,但不能有做官之心,更不该有做官之事。导致这种

期刊

士人心态魏晋玄学庄子注向秀郭象

浅析司法公正的保障机制

司法公正是现代社会政治民主进步的重要标志,也是构建法治社会的基础性保障。司法公正对社会公正具有重要引领作用,司法不公对社会公正具有致命破坏作用。本文着重围绕党的十

期刊

司法司法公正保障机制

基于重要性采样的优势估计器

与本文相关的学术论文