一种解决连续空间问题的真实在线自然梯度AC算法

来源 :软件学报 | 被引量 : 0次 | 上传用户：YouZiTou

【摘要】

：

策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限

【作者】

：

朱斐朱海军刘全陈冬火伏玉琛

【机构】

：

苏州大学计算机科学与技术学院,江苏省计算机信息处理技术重点实验室（苏州大学）,符号计算与知识工程教育部重点实验室（吉林大学）,常熟理工学院计算机科学与工程学院

【出处】

：

软件学报

【发表日期】

：

2018年2期

【关键词】

：

策略梯度自然梯度行动者-评论家真实在线TD 核方法 Policy gradient methods extensively studied continu

【基金项目】

：

国家自然科学基金（61303108,61373094,61472262）, 江苏省高校自然科学研究项目（17KJA520004）, 符号计算与知识工程教育部重点实验室（吉林大学）资助项目（93K172014K04）, 苏州市应用基础研究计划工业部分（SYG201422）, 高校省级重点实验室（苏州大学）项目（KJS1524）, 中国国家留学基金（201606920013）~~

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家（actor-critic,简称AC）算法框架下,提出了真实在线增量式自然梯度AC（true online incremental natural actor-critic,简称TOINAC）算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分（true online time difference

其他文献

“人流”后须做好自我保健

期刊

自我保健母体生殖道人流

本刊常务理事单位庄子用心铸就品牌

庄子人信奉“创新、务实、名牌、价值”。“创新”是庄子人的立业之本，“务实”是庄子人的做事风格，“名牌”是庄子人的追求目标，“价值”是庄子人的企业理念。同时，庄子人始终坚

期刊

庄子常务理事单位品牌企业理念价值消费者创新

破伤风不会因“风”而感染

破伤风是因破伤风杆菌侵入人体伤口、并在伤口处生长繁殖、产生毒素而引起的一种急性特异性感染。破伤风杆菌及其毒素不能侵入正常的皮肤和黏膜，故破伤风都发生在外伤后。一切

期刊

急性特异性感染破伤风杆菌开放性损伤生长繁殖伤口处外伤后侵入毒素

椰子全身都是宝

期刊

椰子药用价值植物药

本期专题

整个5月，地产圈最大的新闻莫过于“二万合作”了！这是地产界的一次狂欢，就连营销层面，也由“和牌术”衍生出“营销术”，成就了“全民和了”的热闹景象。　　一个是商业地产的龙头，一个是住宅地产的领军企业，他们的合作无疑是国内房地产行业的一次“地震”。为此，业内人士对“二万合作”给予种种猜测。各种纷乱背后，是绕不开的“新合作时代”的到来。　　有人说，地产界的微利时代也意味着合作时代，由两大龙头房企开启的“

期刊

专题服装服饰国际品牌秋冬时装交易会开幕式发布会

一种基于程序功能标签切片的制导符号执行分析方法

提出了一种基于程序功能标签切片的制导符号执行分析方法OPT-SSE.该方法从程序功能文档提取功能标签,利用程序控制流分析,建立各功能标签和程序基本块的映射关系,并根据功能

期刊

制导符号执行分支覆盖率指令覆盖率搜索策略程序切片guided symbolic executionbranch coverageinstructi

冶金企业铁路运输部门职工安全教育的几点思考

对冶金企业铁路运输部门职工安全教育的方式、方法分体进行分析和探讨,从安全态度、安全知识、安全技能三方面对职工安全教育的方法进行阐述。

期刊

铁路运输安全职工教育

用心构建和谐班集体

班集体是高校的一个基本组成单位,构建和谐班级是班主任义不容辞的责任,班主任应从建立和谐师生关系、建设高效、和谐的班干部队伍、营造良好、和谐的学风等方面去构建和谐班

期刊

师生关系班干部队伍学风和谐班集体

燕莎、复兴商城各领卖场风骚五木、观奇洋服稳居销售榜首

据国家信息中心提供的资料显示：2008年上半年全国重点大型商场服装类零售值，男西装累计销售52，968百件，比去年同期增长777％；男衬衫累计销售54，769百件，比去年同期下滑431％。

期刊

销售商城大型商场信息中心男西装男衬衫累计服装

梦娜世家羽绒市场崛起的新势力

目前，我国羽绒及羽绒制品产量占全世界总量的70％以上。随着国内消费档次的不断提高，羽绒服市场向知名品牌集中的趋势已日渐突出，这让许多羽绒生产企业、销售企业加速步入品牌竞争

期刊

羽绒制品市场知名品牌生产企业品牌竞争销售企业企业竞争

一种解决连续空间问题的真实在线自然梯度AC算法

与本文相关的学术论文