一种基于状态聚类的SARSA(λ)强化学习算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:a6532460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行sARsA(λ)学习.若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数.
其他文献
充分利用Web Services、中间件等技术,设计并实现了基于Web Services的智能化农业软件支撑平台,该平台具有跨平台、分布式、多线程等特点,为农业软件开发提供了一个方便快捷
目的探讨曲安奈德益康唑乳膏(简称:曲益乳膏)联合莫匹罗星软膏(简称:莫罗软膏)治疗中、重度婴儿尿布皮炎的效果。方法120例中、重度婴儿尿布皮炎患儿随机分为两组:对照组(60例):常规护
为了缓解能源危机,利用光催化反应直接从太阳光中获取能量是一种有前景并且理想的方案。贵金属纳米颗粒因具有等离子体共振效应而表现出吸收太阳光的性能,因此由太阳光引发负
提出一种基于模块的运算部件模拟验证方法,其基本思想是:针对运算部件模块,从通用的C测试程序中提取出模拟和仿真的输入向量;并对运行结果进行分析.利用该方法针对浮点乘法部
提出了一种基于(m,n)-门限方案和椭圆曲线密码体制的数据加密方案.在该方案中,用户分为单人用户和群组用户两种类型.群组用户是指由多个(设为n个)参与者组成的一个集体,他们
拱坝温度是作用于拱坝的主要荷载之一,对拱坝应力特别是拉应力影响较大。拱坝温度荷载由封拱温度场、年平均温度荷载及变化温度场3个特征温度场的相应值计算求得,而众多拱坝