深度强化学习在围捕逃逸问题中的应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ydaf5hv2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习作为最具代表性的人工智能算法之一,其核心在于结合了深度神经网络强大的特征提取能力与强化学习的探索试错能力,其中强化学习在探索中提供样本及对应的监督值给神经网络;神经网络学习样本后进而为强化学习的探索提供引导。深度强化学习为智能体自主学习提供了一个通用的框架,从而使得智能体端到端的学习成为可能。围捕逃逸问题由于其包含智能体间合作及对抗的特点,一直是多智能体领域的经典问题。在多智能体问题中,智能体的数学模型不一定是已知的,此时智能体的控制器参数往往难以手工设计,而使用深度强化学习的方法则可以令智能体自主学习控制器参数,并且避免了设计策略时加入主观因素的风险。本文以有限空间内多智能体围捕逃逸问题为背景,对多智能体强化学习算法进行了探究,针对实验过程中确定性策略梯度算法不合法的动作值函数产生误导性梯度的问题,提出了一种裁剪不同动作空间的新算法:MADDPG-DAS。并根据围捕逃逸环境改进了奖励函数,激活函数,此外还使用了权重经验回放与近端策略优化,增加了算法的收敛速度与稳定性。实验结果表明MADDPG-DAS算法可以解决确定性策略梯度算法在部分状态下Actor网络难以反向更新的问题,相比于经典的MADDPG算法,该算法训练的智能体具有更高的灵活性,测试效果更好。此外我们还测试了逃逸者可以成功逃逸的极限条件,实验结果表明智能体可以在不同条件下找到最符合自身优势的策略,为相似的寻找极限条件问题提供了一种解决思路。
其他文献
资本永远追逐利润,而要多、快、好、省地获得利润,网络游戏无疑是个好选择,在2D网络游戏已经赚得钵肥肚满,增长乏力之时,2004年,3D网络游戏接过了再创辉煌的大旗。新旧交替,
结合药物分析教学中遇到的语言沟通障碍、西药知识匮乏、化学基础薄弱、仪器原理模糊、操作生疏等实际问题,进行教学研究和探索,采取相应改革举措。通过教学改革,可以有效提高药
摘要:伴随着社会的发展,我国农村计划生育计划不断改革,通过采用研究经典案例的方法,对农村计划生育的服务机制和转型研究进行一个了解。社会经济、文化的不断发展,物质生活各方面显著提高,因而农村计划生育服务机制与转型在当地医疗发展、社会服务水平、人口发展等因素的共同作用下,发展到另一个新高度。然而农村计划生育服务机制与转型需要政府财政投入而得到保障,因此为把我国农村计划生育服务机制与转型成功构建成一个和
【正】 五月的北京为世人献上了一个豪华版的科技盛宴; 五月的北京为世人展示了一个普及版的科技应用。这就是日前在北京举行的2004年全国科技周暨北京科技周活动。与往届相
药学英语课堂教学是一种社会活动,是学生获得药学英语语言知识和技能的重要环节。该文依据功能语言学语域理论,分析药学英语课堂教学,从中提出对药学英语教学中几个重要方面的认
日前,云集了数百家国内外知名厂商参与的第七届中国北京国际科技产业博览会在京隆重召开,各大厂商展出的各式各样的“新式武器”令参观者目不暇接。一年一度的“科博会”已经
本文讨论面线点教学方法模式数据库的设计思想,并说明它在计算机专业课教学中应 用 .
乙丙橡胶是一种应用非常广泛的弹性体,它的优异的物理和化学特性使得它被广泛地应用于汽车、建筑、农业等诸多领域。本文介绍了乙丙橡胶的生产工艺、过程控制几个方面。生产工
趣味游戏在幼儿对外汉语课堂教学中具有非常重要的作用,游戏的设计需要考虑其可行性、学生参与度、功能性和趣味性等因素。笔者通过自身实践,证明适当的游戏活动可以加强老师对