激励学习的广义平均算法及其收敛性

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：heiefei

【摘要】

：

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学

【作者】

：

殷苌茗陈焕文谢丽娟

【机构】

：

长沙电力学院数学与计算机系,长沙电力学院数学与计算机系,长沙电力学院数学与计算机系长沙 410077,长沙 410077,长沙 410077

【出处】

：

计算机工程与应用

【发表日期】

：

2002年20期

【关键词】

：

激励学习广义平均 Markov 决策过程 Q-学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章提出了一种新的算法,这个算法通过牺牲最优性来获取鲁棒性,重点给出了一组逼近算法和它们的收敛结果。利用广义平均算子来替代最优算子max(或min),对激励学习中的两类最重要的算法一动态规划算法和个学习算法一进行了研究,并讨论了它们的收敛性。其目的就是为了提高激励学习算法的鲁棒性。 An incentive learning agent solves the problem by learning an optimal strategy from state to action mapping. Incentive learning method is Agent to use experiments to interact with the environment to improve their behavior. The Markov Decision Making Process (MDP) model is a common method of solving motivational learning problems. In this paper, a new algorithm is proposed. This algorithm obtains the robustness by sacrificing the optimality, and focuses on a set of approximation algorithms and their convergence results. Using the generalized averaging operator to replace the optimal operator max (or min), two types of the most important algorithms in incentive learning, dynamic programming and learning algorithms, are studied and their convergence is discussed. The purpose is to improve the robustness of incentive learning algorithm.

其他文献

氨溴索和糖皮质激素对胎鼠肺组织骨形态发生蛋白4表达的影响

目的探讨产前给予氨溴索、糖皮质激素(地塞米松、倍他米松)对胎鼠肺组织骨形态发生蛋白4(BMP4)表达的影响。方法18只孕鼠随机分成6组:对照组、氨溴索组、地塞米松1d组和3 d组

期刊

氨溴索糖皮质激素骨形态发生蛋白4

严重低血糖导致脑损伤发生机制的研究进展

低血糖是糖尿病患者血糖控制达到理想的巨大障碍,严格的血糖控制可减少糖尿病慢性并发症的发生,但也增加了低血糖发生的几率。以往的研究发现严重低血糖会导致大脑敏感神经

期刊

低血糖症海马细胞凋亡综述文献

准确获取地质雷达检测结果应注意的问题

着重介绍了在公路工程质量检测中 ,为提高地质雷达检测结果应注意的一些问题 ,以便提高检测水平 This paper mainly introduces some problems that should be paid attenti

期刊

地质雷达检测数据处理

DVB-T传输系统网格编码调制技术

详细讨论了数字电视传输系统中的网格编码调制原理,针对不同的调制方案进行综合比较,并具体比较了各种调制方式在高斯白噪声信道中的抗误码性能,从而得出最佳的编码调制系统

期刊

数字电视网格编码欧氏距离卷积码Viterbi算法

我国执业药师考试资格探讨

执业资格是指政府对某些社会责任较大、社会通用性较强、关系公共利益的专业实行的准入控制,是对依法独立开业或从事某一特定专业人员提出的常识、技术和能力的必备标准。作

期刊

执业药师入门资格探讨

面向对象的设计方法在IP计费管理软件上的应用

随着互联网高速发展,网络基础资源的有偿使用已成为必须解决的问题。文章从面向对象的分析和设计方法出发,详细分析了IP计费管理中存在的问题,提出了适用于静态和动态IP环境

期刊

面向对象的设计IP计费DHCP

基于小波压缩的无线网视频监控系统

文章提出了基于小波压缩的远程无线网视频监控系统的结构、环境适应性和帧图像质量的比特率控制的实现方法,并根据实验结果提出了应用扩展方面的改进建议。 In this paper,

期刊

小波压缩监控无线网

人工智能在入侵检测系统中的应用

人工智能技术在滥用检测和异常检测中都起了重要作用。文章介绍了目前应用于入侵检测系统中的主要的人工智能技术即专家系统、人工神经网络、数据挖掘技术、人工免疫技术、自

期刊

入侵检测人工智能数据挖掘数据融合自治Agent

VEGF对缺血/再灌注损伤胰腺细胞凋亡的影响

目的研究血管内皮生长因子(VEGF)对缺血/再灌注损伤胰腺组织细胞凋亡的影响.方法将雄性sD大鼠30只随机分为3组(n=10),A组为假手术组,B组为缺血/再灌注损伤组,C组为缺血/再

期刊

血管内皮生长因子类/药理学再灌注损伤/预防和控制缺血胰腺/药物作用细胞凋亡/药物作用Vascular endothelial growth facto

放射诊断学教学模式改革的探索

本文对放射诊断学教学模式改革进行了探讨,包括确立"着力培养学生的实践能力、思维能力和自主学习能力"的教学理念,引导学生更早走上自觉成长的道路;重组和整合教学内容,构建

期刊

放射诊断学教学模式教学改革Diagnostic radiologyTeaching modelTeaching reform

激励学习的广义平均算法及其收敛性

与本文相关的学术论文