多智能体系统中具有先验知识的Q学习算法

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zjwx2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高多智能体系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相关的专家经验,提出了具有先验知识的Q学习算法。利用模糊综合决策方法处理专家经验和环境信息得到Q学习的先验知识,对Q学习的初始状态进行优化。典型的足球机器人系统中的仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于普通的Q学习。 In order to improve the learning efficiency and convergence speed of typical intensive learning in multi-agent system and make full use of environmental information and relevant expert experience, a Q learning algorithm with prior knowledge is proposed. The fuzzy comprehensive decision-making method is used to process the expert’s experience and environmental information to obtain the prior knowledge of Q learning and to optimize the initial state of Q learning. The simulation results of a typical soccer robot system show that the algorithm makes the learning process based on better learning and approaches the optimal state faster, and its learning efficiency and convergence speed are obviously better than those of ordinary Q learning .
其他文献
长期以来,我国评估界一直存在着理论与实践脱节的问题.据有关调查研究发现:仅仅注重理论研究的正确性,将理论研究依据作为理论研究的根本,结果往往是理论研究停留在主观层面
[摘要]高校图书馆是知识库集中之地,藏有数量巨大的图书等各种载体,那么怎样才能建设好学院的学科重点,馆藏特色服务的图书馆,更好的满足熟悉科研的信息需求,目前是我们值得探讨的问题。  网络环境下,图书馆的服务工作收到了严重的挑战,特别是新图书馆的服务工作已经远远不能满足读者的需求,在这种环境下,图书馆只有尽快找到新的服务思路,建设好学科特色服务,才能跟上时代的步伐。本人从事图书管理工作,就如何做好图
文化是推动一个民族发展的动力,是实现一个民族伟大复兴的重要决定因素。文化体质改革是近些年党中央不断提出的重点发展方向,公共文化服务体系的建设是构建和谐社会以及促进
去年,前游泳国手Mark Young伙同两名业内知名人士,创办了一家专门针对小众市场的航运公司-Asia Maritime Pacific(AMP),以期在一些较为冷门的亚洲区间航线大展身手.据这家设
面对国内外严峻挑战,中共十八届五中全会通过了“十三五”规划建议,这是塑造中国2016年~2020年经济和社会重点领域发展的战略性路线图.五中全会公告以及随后发布的规划建议提
1990~ 1999年 ,我院共收治肾损伤 42例 ,报告如下。临床资料 :本组男 37例 ,女 5例 ;年龄 6~ 5 9岁 ,平均2 7.5岁。其中左肾 19例 ,右肾 2 3例。损伤原因为直接暴力 35例 ,间接
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
1986年6月~1998年5月,我院共收治陈旧性肩锁关节脱位20例.手术中应用喙突上移至锁骨的方法,使脱位关节复位,恢复了功能,获得了满意的效果,现报告如下.
重组民企是一件好事,也是大势所趋。但是我们不希望由此引发新一轮恶性竞购大战。国家力挺的两大集团牵头重组民营油企,须以理性的态度去进行,遭遇多头竞购时更得思量志在必
期刊
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7