一种加速时间差分算法收敛的方法

来源 :自动化学报 | 被引量 : 0次 | 上传用户:chenminer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间差分算法(Temporal difference methods,TD)是一类模型无关的强化学习算法.该算法拥有较低的方差和可以在线(On-line)学习的优点,得到了广泛的应用.但对于一种给定的TD算法,往往只能通过调整步长参数或其他超参数来加速收敛,这也就造成了加速TD算法收敛的方法匮乏.针对此问题提出了一种利用蒙特卡洛算法(Monte Carlo methods,MC)来加速TD算法收敛的方法(Accelerate TD by MC,ATDMC).该方法不仅可以适用于绝大部分的TD算法,而且不需
其他文献
针对军用编队飞行卫星系统相对轨道测量隐蔽性要求,提出一种具有隐蔽性的主被动结合相对位置及速度测量方案,该方案采取激光测距仪间断工作的方式以减少向外界辐射能量。应用扩
某项目根据花园洋房设计特点,颠覆常规的栋内流水施工,而采用栋与栋之间进行流水,使模板损耗大大减低,节约成本。
中国新感觉派是20世纪20年代末30年代初一个具有浓烈现代气息的小说流派,主要代表作家有施蛰存、穆时英、刘呐欧等。其在经受西方现代主义的洗礼和日本新感觉派直接影响下,由
自动化技术是当前我国的前沿技术之一,该项技术不需要专人操控机器设施就能够进行常规化工作,具有很强的先进性,如今这项技术已经被运用在机械设计和制造等多个领域之中,并且
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
电是我们日常生活中常见的能源之一,除了为我们的日常生活提供方便,更重要的是,它是推动机器设备运转的力量源泉.那么对于一艘船舶来说,电气设备意味着什么?可以这么说,船舶
本文研究主要是采用滴灌、喷灌以及畦灌的方式,通过对冬小麦生育期的土壤含水率、生长指标以及产量等数据展开分析,从而得出不同节水灌溉方式对于冬小麦产生的影响.通过3种灌
在目标跟踪系统中,由于杂波的存在,往往使跟踪检测数据中含有大量、成片的野值,造成系统跟踪精度下降。本文通过对检测数据中新息特性的分析,给出了检测数据中野值的判定方法
针对分布式管理系统的主流开发模式.对比分析了B/S模式和C/S模式,结合两种模式设计了基于B/S和C/S混合架构的文件管理系统。对系统进行了功能需求分析,并重点从硬件架构和软件工作流
目的:分析MicroRNAs在胰腺癌早期诊断中应用的临床价值。方法3种胰腺癌细胞系PANC-1、PaCa-2、AsPC-1和正常胰腺细胞以及胰腺癌患者100例和正常志愿者100例血浆,采用Real-time