平均报酬准则强化学习方法研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户：ewt43grfdger

【摘要】

：

该文研究基于平均报酬准则的强化学习问题及其各种学习算法,主要成果可概括如下:即时差分学习:该文首次给出了基于平均报酬准则问题的即时差分学习算法.该文给出了一种在线的

【作者】

：

胡光华

【机构】

：

北京理工大学

【出处】

：

北京理工大学

【发表日期】

：

1999年期

【关键词】

：

强化学习平均报酬动态规划函数近似 Markorv决策问题压缩映射随机逼近人工神经网络机器学习机器学习即时差分学习 R学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文研究基于平均报酬准则的强化学习问题及其各种学习算法,主要成果可概括如下:即时差分学习:该文首次给出了基于平均报酬准则问题的即时差分学习算法.该文给出了一种在线的平均准则即时差分学习(TD(λ)学习)算法.该文提出了两种增量多步强化学习算法R(λ)学习和截断TD(λ)学习(TTD(λ)学习)地.其它:该文还给出了两种算法,即行动一自适应评价(AAC)学习算法和相对值迭代(RVI)算法.

其他文献

基于双处理器的IGBT超音频感应加热电源的研究

感应加热电源因其加热时间迅速,效率较高,加热温度高,控制易实现自动化等特点广泛应用于金属热处理、表面淬火等领域。现代电力电子器件和电力电子技术的不断创新和发展,使得感应加热电源越来越趋向于功率大容量化、频率高频化,控制电路也由模拟器件电路向全数字化控制电路的形式转变。感应加热技术就是利用电磁感应原理,给需要加热的线圈通入一定频率的交流电,使在其周围产生交变磁场,感应出交流电压,对工件进行快速加热。

学位

超音频感应加热电源锁相环双闭环控制改进式PI算法DSP和FPGA

模糊控制、神经风络和变结构控制的交叉结合及其应用研究

该文在分析和指出了模糊神经网络存在着网络性能不佳,学习效率不理想,网络难以选择最佳结构,甚至会陷入局部极值等问题,提出了采用结构学习模糊神经网络来改进网络性能的办法

学位

模糊神经网络结构学习解耦控制GPS卫星定位

大型喷浆机器人运动学及动力学分析

该文首先分析了大型喷浆机器人的机械结构和工作原理,并将目前最成功的优化算法-遗传算法应用于其机械结构的优化设计.然后建立了大型喷浆机器人的Devavit-Hartenberg杆件模

学位

大型喷浆机器人机械结构优化设计遗传算法运动学动力学

基于陀螺仪参量和肌电信号的中风患者康复疲乏检测方法

脑中风患者在康复过程中，会产生疲乏与肌肉力量下降等问题。康复过程中的过度疲乏易导致患者已恢复运动机能肌肉组织的二次伤害，目前没有定量化的检测疲乏评估方法，因此康复疲乏

学位

中风患者康复疲乏检测方法陀螺仪参量肌电信号

延迟焦化过程的模型建立与先进控制策略

延迟焦化装置是石油炼制企业的重要装置.在该文中,以某炼油厂50万吨/年延迟焦化装置为背景,根据反应机理,建立了延迟焦化过程的十一集总动力学模型,模型中的反应参数由装置的

学位

延迟焦化十一集总动力学模型仿真神经网络推断控制

工业过程多变量动态响应辨识及其在MCC中的应用

该文针对MCC(多变量约束控制)中常用的多变量响应模型的辨识进行了研究,从实用的角度提出了基于多步阶跃测试(Multi-step Test,MST)的多变量动态响应辨识方法.在此基础上,进

学位

多步阶跃测试(MST)最小二乘(RLS)递推算法多变量约束控制(MCC)

基于VxWorks的弹炮结合武器系统综合控制箱设计与实现

弹炮结合武器系统在具备导弹精确打击、射程远、速度快、杀伤力大等优点的同时，还具备高炮快速机动、可持续射击、抗干扰能力强、抗饱和能力强、成本低等优点，在近程防空反导中

学位

战术导弹弹炮结合武器控制数据处理

催化裂化反应器-再生器在线工艺计算模型

在催化裂化装置应用先进控制技术具有较大的经济效益.在实施选进控制技术时,需要有一套工艺计算软件包,能在线实时计算出催化裂化工艺过程的一些不可测变量或难以实时测的变

学位

催化裂化装置控制系统

雷达信号模拟与成像处理方法研究

该文用计算机模拟的方法，分两部分对目前广泛应用的两种雷达(伪码调相连续波制导和合成孔径雷达)进行了信号模拟和处理新方法的研究。伪码调相连续波(PseudoRandomCodedContin

学位

伪码调相连续波雷达地杂波雨杂波星载合成孔径雷达原始信号模拟雷达成像雷达卫星姿态控制姿态误差

基于前向神经网络的自适应控制

该论文对神经网络自适应控制理论及其应用进行了研究,主要对多层前向神经网络自适应控制进行了理论分析和实验研究.研究了两种多层前向神经网络:BP网络和RBF网络对非线性系统

学位

神经网络自适应控制系统辩识开关磁阻可逆变器

平均报酬准则强化学习方法研究

与本文相关的学术论文