激励学习的广义平均算法及其收敛性

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:bendanban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章 提出了一种新的算法,这个算法通过牺牲最优性来获取鲁棒性,重点给出了一组逼近算法和它们的收敛结果。利用广义平均算子来替代最优算子max(或min),对激励学习中的两类最重要的算法--动态规划算法和Q-学习算法-进行了研究,并讨论了它们的收敛性,其目的就是为了提高激励学习算法的鲁棒性 。
其他文献
选取太湖流域湖西山丘区具有代表性的洛阳河流域,收集了2016—2017年的实测洪水资料,采用API水文模型、新安江模型和太湖流域水文模型进行洪水模拟,分析各模型的适用性和模拟
用数学模型对甲型流感病毒聚合酶酸性蛋白家族的进化进行拟合:(1)用氨基酸对的可预测性量化1918年至2008年分离的2433个聚合酶酸性蛋白以表示其演变,(2)确定上升半寿期和下降半衰
随着医学科学的发展,中心静脉压(CVP)的监测在危重病人的抢救中有着相当重要的意义.现将56例危重病人在中心静脉压的监测过程中的一些护理问题作归纳总结,报告如下.
用抗HSV型共同性McAb和抗HSV-2型特异性McAb包被微板,建立了能检测妇女生殖器疤疹的宫颈或阴道棉拭标本中HSV抗原,并可分型的ELISA。经与病毒分离和中和试验分型对照研究,证
将有机反应综合为取代、加成、消去、氧化还原和酸碱反应五个大类——"五反应法则"(简称"五法则"),并在此基础上,结合有机反应中自由基、正离子和负离子三种中间体,将取代和加成各
作者应用氨力农治疗扩张型心肌病心力衰竭28例,用药用心胸比例,左室内经和左室射血分数均有改善,血液动力学效应亦明显,总有效率达89.29%。表明氨力农对扩张型心肌病心力衰竭的有明显疗效
给出利用相互耦合来实现混沌同步的一种方法,计算最大Liapunov指数谱,讨论并给出耦合系数合同步时间之间的关系.
大多数特殊儿童由于受自身生理障碍的影响,精细动作功能障碍表现较为突出。文章作者采用单一被试实验中多基线A-B-A的实验设计,通过指印画、绘画、陶艺等绘画与手工课程对两
文章根据电子商务的安全目标,提出了电子商务平台的安全体系,并对该体系涉及的网络、信息、交易等安全技术做了较详细的介绍。
<正> 近二十年来的研究不断证实:革兰氏阴性菌败血症及感染性休克的发生和致死的主要病因是由于革兰氏阴性菌释放出的内毒所致。即使应用抗生素治疗,其病死率仍高达30%~50%。因