【摘 要】
:
折扣最优判据是当今激励学习领域广泛使用的判据.本文分析了折扣最优判据存在的问题,对基于折扣最优判据的PW-SARSA(λ)算法进行了扩展,提出了一个新的基于平均奖赏MDPs的无模型激励学习算法S(λ),并对标准SARSA(λ)、PW-SARSA(λ)算法和S(λ)算法的性能进行了比较实验.
【机 构】
:
长沙电力学院数学与计算机系(湖南长沙) 长沙交通学院网络中心(湖南长沙)
论文部分内容阅读
折扣最优判据是当今激励学习领域广泛使用的判据.本文分析了折扣最优判据存在的问题,对基于折扣最优判据的PW-SARSA(λ)算法进行了扩展,提出了一个新的基于平均奖赏MDPs的无模型激励学习算法S(λ),并对标准SARSA(λ)、PW-SARSA(λ)算法和S(λ)算法的性能进行了比较实验.
其他文献
阐述了电解加工的基本原理.以YG15硬质合金为对象,在常温碱性电解液中,采用线状铜丝为阴极,两极间施加脉冲电流,经3~5分钟时间,可加工出深度为2.5mm、宽度为0.4mm的环形沟槽,被加工面Ra值达0.8μm.无须电解液循环系统和专用电极,大大简化了加工装置.分析了脉冲参数、工件转速等对加工过程及加工质量的影响规律.
根据整体叶轮叶间通道的特点,分析了采用数控展成电解法精加工整体叶轮叶片型面所用内喷式阴极应具有的结构形式,给出了该阴极各结构尺寸的确定方法,这是开展精密数控展成电解加工整体叶轮叶片型面技术研究的基础工作.
采用弹性浮动工具对小曲率曲面进行机械电解抛磨,介绍了浮动工具设计及运动学仿真,并进行了初步工艺试验,结果表明用弹性浮动工具抛光小曲率曲面是一种可行的方案,具有加工效率高、质量好的优点.
电解加工是一种重要的特性加工方法,提高加工精度是电解加工的研究方向之一.振动进给、脉冲电流电解加工是提高电解加工的加工精度的有效方法.本文分析了它的间隙特性,导出了有关加工间隙的计算公式,分析了加工参数对加工精度的影响;同时采用试验建模的方法,求出了综合精度评价指标与加工参数之间的定量表达式,得到的结论和间隙特性分析的结论一致;并对得到的结论进行了试验验证.
介绍了精密薄壁零件模具型腔电火花大面积镜面加工的方法,概括论述了国内外镜面加工技术的发展方向及程度,讨论了电火花大面积镜面加工技术的原理以及与常规电火花加工方法的不同之处,总结出一些加工规律,在讨论电火花镜面加工的基础上,对镜面加工的工艺参数、机床设备、整体控制系统、电极材料、工件材料、工作液等因素作了分析.
从理论分析入手,阐述了电火花加工(EDM)中电磁信号法放电位置检测的基本原理.在一维放电位置与霍尔效应传感器输出之间的理论关系基础上建立了工件的二维薄壁模型,并对其进行了仿真研究.仿真结果证明了电磁信号检测法放电位置检测法的可行性.
我国电火花成形加工技术面临着严峻的形势.如何适应市场经济的特点,尤其是我国加入WTO后,国外电加工机床对国内市场压力将进一步增大.本文就此发表一些粗浅看法,期望本行业同仁对此问题能予以重视,结合自身特点,有所为,有所不为.总体跟进,重点突破,发展高科技,扬长避短,勇于创新,迎接我国电火花成形加工技术的春天,跟进,重点突破,发展高科技,扬长避短,勇于创新,迎接我国电火花成形加工技术的春天.
介绍了在钛合金零件表面实施强化处理的新技术--电火花熔涂石墨层.文章对熔涂机理进行了分析,说明在电火花放电的瞬时高温作用下,石墨和基体钛发生了微区冶炼过程.产生了新的金属相一强化相,提高了钛合金零件的耐磨损性能,概述了与其他表面处理技术的区别,描述了影响强化效果的因素.
介绍了一种新型旋转超声加工机床,该机床采用基于工控PC的开放式数控系统,实现了超声加工的完全自动化,整个系统运行安全可靠,对硬脆材料的超声加工效果明显.
针对挠性空间结构控制问题研究中,滑模变结构控制由于其固有的颤振特性导致难以获得较高稳态精度的局限性,本文提出采用将变结构控制与自适应控制互相结合的混合控制方案,以期达到动、静态控制品质综合最优.考虑刚性主体上带挠性梁的空间结构,并假定系统在一平面内运动,梁在平面内具有横向弯曲效应.针对典型控制任务,给出了具体控制方案,并以具体实例进行了仿真实验研究,结果表明其动、静态性能是令人满意的.