激励学习的广义平均算法及其收敛性

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：bendanban

【摘要】

：

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程（MDP）模型是解决激励学习

【作者】

：

殷苌茗陈焕文等

【机构】

：

长沙电力学院数学与计算机系

【出处】

：

计算机工程与应用

【发表日期】

：

2002年20期

【关键词】

：

激励学习广义平均算法收敛性 Markow决策过程 Q-学习智能体人工智能 Reinforcement Learning Generalize Avera

【基金项目】

：

国家自然科学基金资助项目(编号:60075019)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程（MDP）模型是解决激励学习问题的通用方法。文章提出了一种新的算法，这个算法通过牺牲最优性来获取鲁棒性，重点给出了一组逼近算法和它们的收敛结果。利用广义平均算子来替代最优算子max（或min)，对激励学习中的两类最重要的算法－－动态规划算法和Q－学习算法－进行了研究，并讨论了它们的收敛性，其目的就是为了提高激励学习算法的鲁棒性。

其他文献

太湖流域湖西山丘区小流域水文模型适用性研究

选取太湖流域湖西山丘区具有代表性的洛阳河流域,收集了2016—2017年的实测洪水资料,采用API水文模型、新安江模型和太湖流域水文模型进行洪水模拟,分析各模型的适用性和模拟

期刊

API模型新安江模型太湖流域水文模型适用性API modelXin'anjiang modelthe hydrological model of

用微分方程组的解析解拟合甲型流感病毒聚合酶酸性蛋白家族的进化过程（英文）

用数学模型对甲型流感病毒聚合酶酸性蛋白家族的进化进行拟合：（1）用氨基酸对的可预测性量化1918年至2008年分离的2433个聚合酶酸性蛋白以表示其演变,（2）确定上升半寿期和下降半衰

期刊

氨基酸对的可预测性进化拟合甲型流感病毒聚合酶酸性蛋白微分方程amino-acid pair predictability evolution fit

56例中心静脉压监测的护理体会

随着医学科学的发展,中心静脉压(CVP)的监测在危重病人的抢救中有着相当重要的意义.现将56例危重病人在中心静脉压的监测过程中的一些护理问题作归纳总结,报告如下.

期刊

中心静脉压监测护理体会危重病人护理问题CVP医学科学抢救归纳总结过程意义

ELISA检测妇女生殖器疱疹中单纯疱疹病毒型特异性抗原的研究

用抗HSV型共同性McAb和抗HSV-2型特异性McAb包被微板,建立了能检测妇女生殖器疤疹的宫颈或阴道棉拭标本中HSV抗原,并可分型的ELISA。经与病毒分离和中和试验分型对照研究,证

期刊

生殖器疮疹女性单克隆抗体genital herpes enzyme-linked immunosorbent assay antibody monocl

有机反应“五-九法则”在大学有机化学教学中的运用

将有机反应综合为取代、加成、消去、氧化还原和酸碱反应五个大类——＂五反应法则＂（简称＂五法则＂）,并在此基础上,结合有机反应中自由基、正离子和负离子三种中间体,将取代和加成各

期刊

教学质量高等教育化学教学

氨力农治疗扩张型心肌病心力衰竭28例临床观察

作者应用氨力农治疗扩张型心肌病心力衰竭２８例，用药用心胸比例，左室内经和左室射血分数均有改善，血液动力学效应亦明显，总有效率达８９．２９％。表明氨力农对扩张型心肌病心力衰竭的有明显疗效

期刊

氨力浓心肌病扩张型心肌病心力衰竭临床

时空混沌的相互耦合同步

给出利用相互耦合来实现混沌同步的一种方法,计算最大Liapunov指数谱,讨论并给出耦合系数合同步时间之间的关系.

期刊

时空混沌同步耦合系数同步时间耦合普通微分方程synchronization of spatiotemporal chaoscoupling param

特殊儿童精细动作能力艺术康复个案研究

大多数特殊儿童由于受自身生理障碍的影响,精细动作功能障碍表现较为突出。文章作者采用单一被试实验中多基线A-B-A的实验设计,通过指印画、绘画、陶艺等绘画与手工课程对两

期刊

特殊儿童精细动作艺术康复个案研究special childrenfine motorartistic rehabilitationcase study

电子商务平台的安全体系研究

文章根据电子商务的安全目标，提出了电子商务平台的安全体系，并对该体系涉及的网络、信息、交易等安全技术做了较详细的介绍。

期刊

电子商务平台安全体系物理安全信息安全数字签名INTERNETSecurityElectronic CommerceInternet

一组抗大肠杆菌内毒素单克隆抗体

<正> 近二十年来的研究不断证实:革兰氏阴性菌败血症及感染性休克的发生和致死的主要病因是由于革兰氏阴性菌释放出的内毒所致。即使应用抗生素治疗,其病死率仍高达30％～50％。因

期刊

大肠杆菌内毒素单克隆抗体

激励学习的广义平均算法及其收敛性

与本文相关的学术论文