一种加速时间差分算法收敛的方法

来源 :自动化学报 | 被引量 : 0次 | 上传用户：chenminer

【摘要】

：

时间差分算法(Temporal difference methods,TD)是一类模型无关的强化学习算法.该算法拥有较低的方差和可以在线(On-line)学习的优点,得到了广泛的应用.但对于一种给定的TD算法,往往只能通过调整步长参数或其他超参数来加速收敛,这也就造成了加速TD算法收敛的方法匮乏.针对此问题提出了一种利用蒙特卡洛算法(Monte Carlo methods,MC)来加速TD算法收敛的方法(Accelerate TD by MC,ATDMC).该方法不仅可以适用于绝大部分的TD算法,而且不需

【作者】

：

何斌刘全张琳琳时圣苗陈红名闫岩

【机构】

：

苏州大学计算机科学与技术学院,苏州大学江苏省计算机信息处理技术重点实验室,吉林大学符号计算与知识工程教育部重点实验室,软件新技术与产业化协同创新中心

【出处】

：

自动化学报

【发表日期】

：

2021年7期

【关键词】

：

强化学习时间差分算法蒙特卡罗算法加速收敛

【基金项目】

：

国家自然科学基金项目(61772355,61702055,61502323,61502329),江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004),吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18),苏州市应用基础研究计划工业部分(SYG201422)资助。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

卫星编队飞行相对轨道主被动结合测量方案研究

针对军用编队飞行卫星系统相对轨道测量隐蔽性要求，提出一种具有隐蔽性的主被动结合相对位置及速度测量方案，该方案采取激光测距仪间断工作的方式以减少向外界辐射能量。应用扩

期刊

编队飞行隐蔽性扩展KALMAN滤波器可观测性Formation flying Concealed ability EKF Observability

花园洋房主体结构栋间流水施工

某项目根据花园洋房设计特点，颠覆常规的栋内流水施工，而采用栋与栋之间进行流水，使模板损耗大大减低，节约成本。

期刊

花园洋房流水施工模板消耗量模板损耗量

中国新感觉派小说的现代主义艺术特征

中国新感觉派是20世纪20年代末30年代初一个具有浓烈现代气息的小说流派,主要代表作家有施蛰存、穆时英、刘呐欧等。其在经受西方现代主义的洗礼和日本新感觉派直接影响下,由

期刊

新感觉派现代主义文体转变

自动化技术在机械设计与制造的应用

自动化技术是当前我国的前沿技术之一,该项技术不需要专人操控机器设施就能够进行常规化工作,具有很强的先进性,如今这项技术已经被运用在机械设计和制造等多个领域之中,并且

期刊

自动化技术机械设计与制造应用

城市交通数据采集设备质量分析

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

智慧交通行程置信时间错检率漏检率

基于几例船舶电气常见故障分析

电是我们日常生活中常见的能源之一,除了为我们的日常生活提供方便,更重要的是,它是推动机器设备运转的力量源泉.那么对于一艘船舶来说,电气设备意味着什么?可以这么说,船舶

期刊

船舶电气设备常见故障故障原因

不同节水灌溉方式对冬小麦生长的影响分析

本文研究主要是采用滴灌、喷灌以及畦灌的方式,通过对冬小麦生育期的土壤含水率、生长指标以及产量等数据展开分析,从而得出不同节水灌溉方式对于冬小麦产生的影响.通过3种灌

期刊

不同节水灌溉冬小麦生长影响分析

一种抗野值的Kalman滤波器

在目标跟踪系统中,由于杂波的存在,往往使跟踪检测数据中含有大量、成片的野值,造成系统跟踪精度下降。本文通过对检测数据中新息特性的分析,给出了检测数据中野值的判定方法

期刊

目标跟踪野值新息Kalman滤波器

基于B/S和C/S混合架构的文件管理系统设计

针对分布式管理系统的主流开发模式．对比分析了B／S模式和C／S模式，结合两种模式设计了基于B／S和C／S混合架构的文件管理系统。对系统进行了功能需求分析，并重点从硬件架构和软件工作流

期刊

B/S架构C/S架构混合架构文件管理系统设计

MicroRNAs在胰腺癌早期诊断中的应用研究

目的：分析MicroRNAs在胰腺癌早期诊断中应用的临床价值。方法3种胰腺癌细胞系PANC-1、PaCa-2、AsPC-1和正常胰腺细胞以及胰腺癌患者100例和正常志愿者100例血浆，采用Real-time

期刊

胰腺癌microRNAsRT-PCR免疫组化早期诊断

一种加速时间差分算法收敛的方法

与本文相关的学术论文