基于重要性采样的优势估计器

来源 :通信学报 | 被引量 : 0次 | 上传用户:chenmojay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在连续动作任务中,深度强化学习通常采用高斯分布作为策略函数。针对高斯分布策略函数由于截断动作导致算法收敛速度变慢的问题,提出了一种重要性采样优势估计器(ISAE)。该估计器在通用优势估计器(GAE)的基础上,引入了重要性采样机制,通过计算边界动作的目标策略与行动策略比率修正截断动作带来的值函数偏差,提高了算法的收敛速度。此外,ISAE引入了L参数,通过限制重要性采样率的范围,提高了样本的可靠度,保证了网络参数的稳定。为了验证ISAE的有效性,将ISAE与近端策略优化结合并与其他算法在 MuJoCo平台上进
其他文献
本文尝试以音乐"三要素"模式为基础,探究在"原本性"视域下小学闽南童谣的教学方法,即从了解童谣背后的音乐文化观念,到亲自参与整体性、即兴性的童谣表演,最后自然生成对童谣
<正>一堂成功有效的音乐课既离不开预设,也不能没有生成,但完全按照预设进行的教学,将会导致无视或忽视孩子学习的自主性。如果一味追求课堂上即时的"生成",这堂课看似热热闹
采用微波消解,电感耦合等离子体质谱(ICP-MS)法测定茶叶中锗、硒元素。对样品前处理方法进行了研究,从消解体系、酸用量、消解程序等方面对微波消解条件进行了优化。在优化实验条
理性主义与功利主义是主导高等教育领域的两种主要思想。本文通过对理性主义与功利主义高等教育思想的冲突与融合进行论述,揭示了高等教育的发展方向,为我国的高等教育发展提
聂莉芳教授是中国中医研究院西苑医院肾病科主任、主任医师、博士生导师,北京中医药学会肾病专业委员会主任委员,专门从事肾病临床工作近30年,对慢性肾功能衰竭的中医治疗积
利用 16对水稻功能基因的SSR引物研究了 2 3份世界 5个国家不同来源的水稻种质资源的遗传多样性 ,共检测出 78个等位基因变异 ,每对引物可检测 2~ 10个等位基因变异 ,平均为 5
本论文通过色彩情绪化导向进行分析,更为深入透过产品色彩的情绪导向应用原则去挖掘产品设计色彩背后的情绪化表现意义,为我国未来产品设计色彩情绪化导向设计提供更为广阔的
<正>11月13日-14日,杭州市中小学音乐"立足素养深度学习"研讨活动暨中小学音乐教学专业委员会年会在杭州长江实验小学隆重举行,此次活动由杭州市基础教育研究室主办,下城区教
“学而优则仕”是中国古代士人的座右铭。但是,《庄子注》却提出了一个令人感到不可思议的主张:仕而不事,即士人可以出仕做官,但不能有做官之心,更不该有做官之事。导致这种
司法公正是现代社会政治民主进步的重要标志,也是构建法治社会的基础性保障。司法公正对社会公正具有重要引领作用,司法不公对社会公正具有致命破坏作用。本文着重围绕党的十