学习过程中共享经验的Q学习算法的研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户：fleur0512

【摘要】

：

主要以提高多智能体系统中Q学习算法的学习效率为研究目标,以追捕问题为研究平台,提出了一种基于共享经验的Q学习算法。该算法模拟人类的团队学习行为,各个智能体拥有共同的

【作者】

：

乔林罗杰

【机构】

：

南京邮电大学自动化学院

【出处】

：

计算机科学

【发表日期】

：

2012年5期

【关键词】

：

Q学习算法 MAS 围捕问题共享经验

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

主要以提高多智能体系统中Q学习算法的学习效率为研究目标,以追捕问题为研究平台,提出了一种基于共享经验的Q学习算法。该算法模拟人类的团队学习行为,各个智能体拥有共同的最终目标,即围捕猎物,同时每个智能体通过协商获得自己的阶段目标。在学习过程中把学习分为阶段性学习,每学习一个阶段,就进行一次阶段性总结,分享彼此好的学习经验,以便于下一阶段的学习。这样以学习快的、好的带动慢的、差的,进而提升总体的学习性能。仿真实验证明,在学习过程中共享经验的Q学习算法能够提高学习系统的性能,高效地收敛于最优策略。

其他文献

老叶茶叶含片制备工艺研究

目的:采用湿法制粒制备茶叶口含片并优化其制备工艺。方法:通过单因素试验对各种辅料的用量进行了考察;以口感、崩解时限作为考察指标,采用正交试验设计法优化处方。结果:最

期刊

老茶叶口含片崩解时限正交设计

基于LON总线与RS-485的楼宇自动化监控系统实现

介绍了基于LON总线和RS-485的三种楼宇自动化监控系统设计方案.通过对它们优缺点的分析比较,着重阐述了基于LON总线与RS-485分级混合控制网络的系统设计方案.文章较详细地说

期刊

LON总线RS-485协议分级混合控制网络网络集成路由器网关

广西贺州昭平县樟林乡石城围屋特点探究

以广西贺州昭平县樟林乡石城围屋为研究对象,探究其建筑特征,并对其建筑格局、历史沿革、人文风貌进行论述,指出其研究对于今后的保护发展和广西建筑文化的传承起着基础而关

期刊

广西贺州樟林乡石城围屋建筑特征

VB法生长低位错GaAs单晶

用于激光二极管（LD）和发光二极管（LED）的GaAs晶片,要求其具有低的位错密度（EPD）。为了获得低位错密度的GaAs晶片,必须先得到低位错密度的体单晶。我们采用垂直布里奇曼（VB）法分别得到

期刊

位错密度垂直布里奇曼法GaAs晶体温度梯度热场

冠心病患者血清瘦素水平变化与冠脉严重程度的关系

目的研究冠心病患者血清瘦素(Leptin)水平的变化,探讨其与冠心病严重程度的关系。方法收集120例冠心病患者根据病情分为稳定性心绞痛组(36例)、急性冠脉综合征组(62例)及ST段

期刊

瘦素冠心病稳定性心绞痛急性冠脉综合征

中国国债利率期限结构突变与动因分析——基于无套利宏观金融模型的视角

已有研究表明中国宏观经济和金融市场近20年来表现出区制转换和非线性特征，在此背景下国债市场是否也存在结构性变化，将关系到利率模型的稳定性和经济政策的效果。文章基于未知

期刊

结构突变利率期限结构宏观金融模型无套利

数字微镜器件动态红外场景投影技术

动态红外场景投影（DIRSP）技术是考察和评估红外成像测量跟踪系统性能指标的主要方法。本文回顾了国内外DIRSP技术的发展现状及应用，概述了几种主要的DIRSP技术及其特点。在详细

期刊

数字微镜器件数字光处理动态红外场景投影微镜阵列投影系统

一种新的选择相空间重构参数的方法

阐述了时间延迟对于相空间重构的影响，概括现有的基于相空间扩展准则选择时间延迟的主要方法，提出了以相轨迹绕相空间主方向轴转动惯量为依据的新方法，利用典型数据测试，并与典型

期刊

相空间重构时间延迟转动惯量平均位移

九洲江流域“2013·08”暴雨洪水特性分析

2013年8月14日,受强台风“尤特”和西南季风共同影响,九洲江流域出现强降水过程,流域下游控制站缸瓦窑水文站实测到自1995年以来最高洪水位7.59 m。通过“2013·08”暴雨洪水

期刊

暴雨洪水特性分析九洲江流域防治对策

西藏汽车市场调查与相关人才需求分析

通过对西藏汽车保有量、汽车后市场的企业现状、人才现状的调查，提出了汽车后市场人才需求规格，并提出了人才培养的意见和建议。

期刊

西藏汽车后市场人才调查分析

学习过程中共享经验的Q学习算法的研究

与本文相关的学术论文