【摘 要】
:
针对值函数逼近算法对精度及计算时间等要求,提出了一种基于改进极限学习机的递归最小二乘时序差分强化学习算法。首先,将递推方法引入到最小二乘时序差分强化学习算法中消去
论文部分内容阅读
针对值函数逼近算法对精度及计算时间等要求,提出了一种基于改进极限学习机的递归最小二乘时序差分强化学习算法。首先,将递推方法引入到最小二乘时序差分强化学习算法中消去最小二乘中的矩阵求逆过程,形成递推最小二乘时序差分强化学习算法,减少算法的复杂度及其计算量。其次,考虑到LSTD(0)算法收敛速度慢,加入资格迹增加样本利用率提高收敛速度的算法,形成LSTD(λ)算法,以保证在经历过相同数量的轨迹后能收敛于真实值。同时,考虑到大部分强化学习问题的值函数是单调的,而传统ELM方法通常运用具有双侧抑制特性的Sigmo
其他文献
信用交易是商品经济发展到特定阶段的必然产物。随着信用交易从生产、商业领域扩大到消费领域,我们不可避免地需要面对消费者权益保护问题。处于弱势地位的消费者在信用消费
在分析钢渣主要化学成分和矿物组成、碱度及活性等基本性质的基础上,综述了其在水泥及混凝土材料中资源化利用的现状,并就研究中所遇到的主要瓶颈问题、解决方案及注意事项进
目的探讨早期护理干预措施防止母婴同室新生儿呕吐的效果。方法建立新生儿风险预警标识,提高产妇及家属对新生儿的照护能力,保持新生儿正确卧位,加强护理人员急救理论和应急
汇率在国际金融市场以及对外贸易中扮演着重要角色。由于汇率变动趋势的不确定性及复杂性,传统的汇率预测方法无法达到更好的预测效果。为了达到更好的预测效果,我们提出基于
<正> 据Cullen的研究,在0.7mm的人胚胎其背面为羊膜腔覆盖而腹面座落在较大的卵黄囊上,整个结构借宽阔的体蒂连接于绒毛膜及子宫壁上,体蒂内含有由一对脐动脉和一支脐静脉构
本文简要地介绍了汽车制造行业在生产过程中,室内空气污染物的现状以及空气净化的方法,分析了治理净化室内空气污染物的原理及应用,着重介绍了手工等离子切割除尘应用,除室内微细
养老是一项关系国计民生的重要工程,关系到整个社会的和谐与稳定。基于豫东A村的调查发现,随着农村大量男性青壮年向城市大规模的流动和女性自主意识的提高,农村儿子养老力量有
民营企业是我国税收的重要来源,民营企业的发展对我国经济的发展有着重大影响。在民营企业发展过程中,财务管理是一项重要的工作,然而在企业改革环境下,民营企业的财务管理已
随着住宅建筑规模不断扩大,电气设计的安全问题备受人们关注,政府部门制订了相应的政策法规,设计人员不断改进电气设计方法,以满足对家用电气的安全需求和消费猛增的信息需求,在用
艾丽丝.沃克的散文在其整体的创作中占据着非常重要的地位。文章从生态批评的视角对沃克的散文《我是蓝?》进行解读,通过分析文中“我”与“蓝”的关系即人与自然的关系,探讨