基于有限样本的最优费用关联值递归Q学习算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：zhengguowei

【摘要】

：

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径，一种是求最大奖赏方法，另一种是求最优费用方法。该文利用求解最优费

【作者】

：

殷苌茗陈焕文谢丽娟

【机构】

：

长沙电力学院数学与计算机系

【出处】

：

计算机工程与应用

【发表日期】

：

2002年11期

【关键词】

：

有限样本最优费用关联值递归 Q学习算法人工智能 Reinforcement Learning Q-Learning Optimal ity Cost Fu

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径，一种是求最大奖赏方法，另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发，给出了Q学习的关联值递归算法，这种方法的建立，可以使得动态规划（DP）算法中的许多结论直接应用到Q学习的研究中来。

其他文献

基于CORBA的电子商务解决方案研究

分布式组件技术CORBA与Web的结合给Internet上的应用系统开发带来了全新的解决方案，电子商务系统具有典型的分布式特点，在其构造过程中自然联系到CORBA技术的应用。文章首先简

期刊

组件CORBA电子商务INTERNETComponent CORBAE_commerce

从法兰克福图书博览会看电子出版物的猛烈发展势头

从法兰克福图书博览会看电子出版物的猛烈发展势头秦笃烈法兰克福图书博览会于１５６０年首次举办，迄今已有４００多年的历史。１９９３年改名为法兰克福图书和电子出版物博览会（ＦＢＥＦＦ），这表明作为人类文明传播介质发生了一场划时代的革命，即从书面或音像出版向...

期刊

电子出版物多媒体发展

同步超混沌无线发射接收器的研制

文章基于超混沌同步理论，研制出一套无线发射接收器，用于信息的保密通讯。该系统具有动态加密性能好、运算速度快、实时性好、编码实现简单等特点。

期刊

保密通信同步超混沌无线发射接收器研制hyper-chaossynchronizationsecurity communication

基于外语需求分析的EGP和ESP在大学英语的融合教学

EGP能够夯实学生的通用英语的学习基础,提升学生的自主学习能力,协助学生形成正确的价值观和世界观;ESP能够提升学生的职场竞争力,增强学生在专门领域的英语运用能力,帮助学

期刊

外语需求EGPESP大学英语教学requirements analysis of foreign languageEGPESPcollege Engli

壮医药线点灸联合灵龟八法针刺治疗偏头痛25例

目的:比较壮医药线点灸联合灵龟八法针刺治疗偏头痛与常规西药治疗偏头痛的临床疗效。方法:采用随机数字表法,将50例偏头痛患者分为观察组及对照组各25例,观察组患者以壮医药

期刊

偏头痛壮医药线点灸疗法灵龟八法

网络结构设计

<正>一、新技术对网络结构的影响在过去5～10年中,通信领域的硬件技术和软件技术获得飞速发展,交换机处理话务的能力大大提高.随着经济的发展,话务量亦相应增加,迫切需要容量更

期刊

网络结构结构设计通信网

一种新的图像分析方法——面积直方图

文章提出了面积直方图的概念。从为有序元素集定义面积直方图出发，通过图像的阀值分解及层集等概念，面积直方图被扩展到了灰度图像。典型地，一个灰度图像的面积直方图就是图像中

期刊

图像分析方法面积直方图尺度空间阀值分解图像处理计算机Area histogramConnected operatorsScale spaceT

基于数据融合技术的水声对抗仿真系统研究

介绍了数据融合技术的基本概念、建模思想及研究内容，并将之应用于水声对抗仿真系统中。结合多传感器目标检测的基本理论，提出了一套崭新的分布式水声对抗仿真系统方案，并对系统

期刊

数据融合水声对抗仿真系统计算机仿真Data fusionAcoustic Warfare(AW)System simulation

ISS公司做桌面机和操作系统的保护使者

期刊

桌面机操作系统入侵防护系统防火墙网络安全计算机网络ISS公司

美国UT斯达康接入网系统

本文简述综合接入的方法及其原理，重点介绍了美国ＵＴ斯达康公司的接入网产品ＡＮ２０００。

期刊

接入网技术ISDN美国数字网

基于有限样本的最优费用关联值递归Q学习算法

与本文相关的学术论文