基于改进ELM的递归最小二乘强化学习算法的研究

来源 :北京化工大学 | 被引量 : 2次 | 上传用户:leidyteam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习包含了策略评价与策略寻优两个方面的问题,其中策略评价问题在机器学习中又称为预测学习过程,而策略寻优即策略优化问题在机器学习中又被称为控制学习过程,通过正确、成熟的策略评价以及策略迭代技术可实现控制学习,并最终实现最优控制。本文课题分别就策略评价算法以及策略寻优算法两方面展开研究:策略评价方面,针对基于最小二乘函数逼近时序差分算法的快速性以及输出精度和稳定性上进行进一步改善。首先,针对在强化学习问题中基于极限学习机(Extreme learning machine,ELM)的最小二乘时序差分学习算法计算效率低的问题,本文提出采用具有单抑制特性的Softplus激活函数代替传统的Sigmoid函数,用以减少算法计算量。其次,针对传统ELM输入层权值随机的不稳定性问题,在学习过程中加入正则化因子,有效地克服了值函数逼近器的过拟合问题,从而更好地估计值函数真实值。然后,针对样本利用率,加入了资格迹方法,提出基于改进ELM的最小二乘时序差分算法(Least-squares temporal difference learning algorithm based on improvedextreme learning machine,IELM-LSTD)。同时,为了进一步提高计算速度,从算法复杂度角度出发,将递推方法引入到IELM-LSTD算法中,消去最小二乘中的矩阵求逆过程,形成递归最小二乘算法,提出基于改进ELM的递归最小二乘时序差分算法(recursive least-squares temporal difference learning algorithm based on improved extreme learning machine,IELM-RLSTD),有效降低了算法复杂度并提高了在线计算速度。通过广义Hop-word实验以及倒立摆实验,验证了所提算法在计算速度和稳定性上的提高。策略优化方面,在改善策略评价算法的基础上,结合传统的策略迭代技术,提出了基于改进ELM的最小二乘Q(λ)策略寻优算法(Recursive least-squares Q learning algorithm based on improved extreme learning machine,IELM-RLSQ(λ)),除了具有快速性及稳定性外,该算法对Q函数值进行逼近,相比于传统Q(λ)算法,本算法替代了采用表格存储Q值的方法,用以解决更复杂的环境问题。以RPG游戏中寻路过程为实验模型,进行路径策略寻优,实验表明,所提算法在成功解决躲避障碍物问题基础上,实现了最优路径的快速搜索,通过与Q(λ)算法和LSQ(λ)算法的比较,证明了所提算法在学习速率和寻优效果上的提升。
其他文献
白内障是我国目前主要的致盲性疾病之一 ,而日益受到眼科工作者的重视。谷胱甘肽 (GSH)对控制白内障的发生具有重要意义。在哺乳动物体内 ,晶状体是富含GSH的组织。它的存在
一、两则资料启示 资料1 有一位外籍教师在观摩了一节中国教师主讲的高中数学课后,有人请他提意见,这位老外在肯定了这堂课的优点后说:“课堂上学生都能回答教师提出的问题,那么
本研究应用流式荧光原位杂交(Flow-FISH)方法检测白血病细胞端粒长度,并同时检测表面分化抗原,寻找一个可广泛应用的监测白血病微小残留病的新方法。提取白血病患者骨髓及健康
<正>在英国的赫夫冈德谢乡村,一片衰败不堪的酒吧围绕着一栋简陋的钢筋混凝土建筑。建筑物内灯光暗淡,像是一家古远的工厂。而在建筑物中大厅里的墙上是一排显示全世界不同城
<正>大量免疫毒理学研究表明,镉可引起机体免疫功能的改变.一些研究试图从不同角度来阐明镉的
会议
通过调查分析施工养护车辆在高铁上脱轨后倾覆原因,结合施工养护车辆的具体结构,设计了一种施工养护车辆防倾覆装置,只需要对现有车辆轴箱体做少量改进,增加防倾覆勾板,即可
MOOC课程在高等院校的普及,有利于优质教学资源的普及,促进我国高等教育的发展。本文以智慧树平台《创造性思维与创新方法》为例,对国内高校MOOC学习行为进行分析,从学习行为
目的:观察舌诊与胃镜结合治疗慢性胃炎的疗效。方法:辨证分型用中药治疗。结果:120例总有效率为88.3%。结论:依舌辨证,结合胃粘膜病变情况,可以总结慢性胃炎的客观分型。
邓维琪是清末贵州著名词人,他于清亡后,改名为邓潜,以遗民身份,流寓并客死成都。他在《牟珠词》中寄寓了故国之思和伤时之感的遗民情怀,表现在以咏物为主的题材选择、对社会时事的
配件是生产设备维护维修所需要的重要物资资源,合理的配件储备是维护设备可靠运行的关键。本文分析生产企业配件库存管理特点以及常用配件预测和管理方法,根据企业的生产特点