基于有限样本的最优费用关联值递归Q学习算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:zhengguowei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。
其他文献
分布式组件技术CORBA与Web的结合给Internet上的应用系统开发带来了全新的解决方案,电子商务系统具有典型的分布式特点,在其构造过程中自然联系到CORBA技术的应用。文章首先简
从法兰克福图书博览会看电子出版物的猛烈发展势头秦笃烈法兰克福图书博览会于1560年首次举办,迄今已有400多年的历史。1993年改名为法兰克福图书和电子出版物博览会(FBEFF),这表明作为人类文明传播介质发生了一场划时代的革命,即从书面或音像出版向...
文章基于超混沌同步理论,研制出一套无线发射接收器,用于信息的保密通讯。该系统具有动态加密性能好、运算速度快、实时性好、编码实现简单等特点。
EGP能够夯实学生的通用英语的学习基础,提升学生的自主学习能力,协助学生形成正确的价值观和世界观;ESP能够提升学生的职场竞争力,增强学生在专门领域的英语运用能力,帮助学
目的:比较壮医药线点灸联合灵龟八法针刺治疗偏头痛与常规西药治疗偏头痛的临床疗效。方法:采用随机数字表法,将50例偏头痛患者分为观察组及对照组各25例,观察组患者以壮医药
<正>一、新技术对网络结构的影响在过去5~10年中,通信领域的硬件技术和软件技术获得飞速发展,交换机处理话务的能力大大提高.随着经济的发展,话务量亦相应增加,迫切需要容量更
文章提出了面积直方图的概念。从为有序元素集定义面积直方图出发,通过图像的阀值分解及层集等概念,面积直方图被扩展到了灰度图像。典型地,一个灰度图像的面积直方图就是图像中
介绍了数据融合技术的基本概念、建模思想及研究内容,并将之应用于水声对抗仿真系统中。结合多传感器目标检测的基本理论,提出了一套崭新的分布式水声对抗仿真系统方案,并对系统
本文简述综合接入的方法及其原理,重点介绍了美国UT斯达康公司的接入网产品AN2000。