平均报酬准则强化学习方法研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:ewt43grfdger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文研究基于平均报酬准则的强化学习问题及其各种学习算法,主要成果可概括如下:即时差分学习:该文首次给出了基于平均报酬准则问题的即时差分学习算法.该文给出了一种在线的平均准则即时差分学习(TD(λ)学习)算法.该文提出了两种增量多步强化学习算法R(λ)学习和截断TD(λ)学习(TTD(λ)学习)地.其它:该文还给出了两种算法,即行动一自适应评价(AAC)学习算法和相对值迭代(RVI)算法.
其他文献
感应加热电源因其加热时间迅速,效率较高,加热温度高,控制易实现自动化等特点广泛应用于金属热处理、表面淬火等领域。现代电力电子器件和电力电子技术的不断创新和发展,使得感应加热电源越来越趋向于功率大容量化、频率高频化,控制电路也由模拟器件电路向全数字化控制电路的形式转变。感应加热技术就是利用电磁感应原理,给需要加热的线圈通入一定频率的交流电,使在其周围产生交变磁场,感应出交流电压,对工件进行快速加热。
该文在分析和指出了模糊神经网络存在着网络性能不佳,学习效率不理想,网络难以选择最佳结构,甚至会陷入局部极值等问题,提出了采用结构学习模糊神经网络来改进网络性能的办法
该文首先分析了大型喷浆机器人的机械结构和工作原理,并将目前最成功的优化算法-遗传算法应用于其机械结构的优化设计.然后建立了大型喷浆机器人的Devavit-Hartenberg杆件模
脑中风患者在康复过程中,会产生疲乏与肌肉力量下降等问题。康复过程中的过度疲乏易导致患者已恢复运动机能肌肉组织的二次伤害,目前没有定量化的检测疲乏评估方法,因此康复疲乏
延迟焦化装置是石油炼制企业的重要装置.在该文中,以某炼油厂50万吨/年延迟焦化装置为背景,根据反应机理,建立了延迟焦化过程的十一集总动力学模型,模型中的反应参数由装置的
该文针对MCC(多变量约束控制)中常用的多变量响应模型的辨识进行了研究,从实用 的角度提出了基于多步阶跃测试(Multi-step Test,MST)的多变量动态响应辨识方法.在此基础上,进
弹炮结合武器系统在具备导弹精确打击、射程远、速度快、杀伤力大等优点的同时,还具备高炮快速机动、可持续射击、抗干扰能力强、抗饱和能力强、成本低等优点,在近程防空反导中
在催化裂化装置应用先进控制技术具有较大的经济效益.在实施选进控制技术时,需要有一套工艺计算软件包,能在线实时计算出催化裂化工艺过程的一些不可测变量或难以实时测的变
该文用计算机模拟的方法,分两部分对目前广泛应用的两种雷达(伪码调相连续波制导和合成孔径雷达)进行了信号模拟和处理新方法的研究。伪码调相连续波(PseudoRandomCodedContin
该论文对神经网络自适应控制理论及其应用进行了研究,主要对多层前向神经网络自适应控制进行了理论分析和实验研究.研究了两种多层前向神经网络:BP网络和RBF网络对非线性系统