基于深度强化学习的微型即时战略博弈的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:birdwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在未来战争中,传统的单兵种、单装备间的对抗将被多兵种、多装备对抗所取代。协同电子对抗利用计算机及通信技术将现有电子对抗系统联成网络,最大限度地发挥和利用现有技术、战术资源,提高系统的感知能力、攻击能力和防护能力,最终达到实现统一协调战斗行动,有效提高现有电子对抗系统综合作战效能的目的。面向中心式的对抗技术很难适应实时对抗系统的异构、复杂、动态、大规模特征需求,而多智能体强化学习技术具有的自主性、分布性、协调性特点以及自组织能力、自学习能力,有利于构建具有较强的鲁棒性和可靠性的协同对抗系统。本文致力于使用深度强化学习技术解决多智能体对抗系统中的问题。本文的研究主要针对即时战略博弈的小型战役场景和全面战役场景以及深度强化学习系统的设计与实现:1)在小型战役场景中,传统的动作-值函数在学术研究中得到了广泛的应用,但是动作-值函数很难适应即时战略博弈的场景,因为在这些场景中,智能体的数量可以随时变化。为了使多智能体体系结构更具可扩展性,本文探讨了一种可以避免在系统中使用动作-值函数的多智能体即时战略博弈强化学习框架,即在演员-评委(Actor-Critic)框架中使用一个所有智能体共享的全局状态-值函数和多个可以切换的演员函数,并设计了适合于该框架的全局奖赏函数。同时,本文还提出了更符合现实场景的半马尔可夫多智能体策略梯度算法,该算法不需要任何人类知识、可以应用于动作具备持续性的半马尔可夫决策过程当中。2)在全面战役场景下,问题有着比小型战役场景更高的状态空间和动作空间。本文在小型战役场景设计的强化学习框架和算法的基础上,针对在全面战役下可能出现智能体之间缺乏配合和训练更容易陷入局部解这两个问题,分别提出了反事实优势函数与联盟学习方法。3)本文给出了强化学习系统的设计与实现细节,并将小型战役场景和全面场景下的算法进行了实现。为了评估本文方法的性能,本文在一个简化的即时战略平台!RTS上进行了小型战役场景的实验和全面战役的实验。结果表明,经过本文方法所训练的人工智能(Artificial Intelligence,AI)在对战强力基线AI时具备极强的竞争力。
其他文献
該研究審查了巴基斯坦國際建設專案所涉及的確切政治風險以及對這些風險的有效管理。本研究的目的是研究影響影響項目系統的國際建築專案的政治風險的變數。調查表是作為一項調查進行的,其中60份來自工業界的答覆。然後對這些因素進行研究和分析,以確定變數之間的關係。此外,還進行了個案研究,結果表明,由此產生的框架是適當的,適合今後的應用。案例研究顯示風險的主要威脅。在這種情況下,所披露的情況包括政治風險、譴責、
The Cone Penetration Test(CPT)has become the mostly used and accepted test methods for determining geotechnical soil properties.The methods for the assessment of pile capacity in terms of its sleeve f
学位
当前,南京水务集团有限公司信息化建设已经初具规模,并已建成呼叫热线系统与地理信息系统。已有的供水管网巡检系统采用百度地图作为基础图层,由于不支持管网信息显示,巡检系统与呼叫热线系统数据无法直连,多处需要人工参与,难以满足集团信息化建设要求。2018年,江东中路1500管径主线水管爆裂的应急突发事件,更体现出升级改造现有巡检系统的迫切性。首先,本文通过思考现阶段供水管网巡检管理中遇到的问题,并依据到
随着中国裁判文书网等裁判文书公示网站的成立,互联网上存在着海量的裁判文书。快速自动化的从海量文书中寻找相似裁判文书成为广大法律相关从业者的需求。类案发现旨在发现文书内容相似的裁判文书,类案发现辅助法官寻找到相似文书,对于相似案例做出相似的判决以确保法律公正,也可辅助辩护律师寻找到相似的裁判文书为被告人进行辩护。以往的类案发现方法忽略了裁判文书中含有的法律专业知识,但是裁判文书属于专业领域的文本,引
作为最快捷高效的交通运输方式,航空运输的形态、模式和格局正在被全方位重塑。因此国家提出并明确了四型机场建设的内涵、目标和重点任务,全面谋划布局未来机场发展建设,实施新时代民航高质量发展战略,建设平安、绿色、智慧、人文“四型机场”。通过推进装配式标准构件法在机场航站区建设中的应用和研究,建立一种全新的设计与建造体系,即从方案阶段开始。在工厂利用工业化的方式制造各种构件,并运用新型的施工技术开展建设。
学位
学位
行业的发展与人才息息相关,民航类专业实训空间作为其专业人才培养的主要场所,其建设尤为重要。本文以中飞院新校区规划建设为项目背景,从我国民航类专业建设情况出发,结合国内外相关案例,对民航类专业实训空间进行研究,寻求其在规划布局及具体建筑设计中的原则与策略。论文分为上下两篇。上篇为设计实践,以笔者独立完成的中飞院新校区实训空间规划方案设计图纸为主要内容,包括项目背景介绍和方案设计相关分析图纸。下篇为研
HUD(Head Up Display),全称为平视显示器,因其可以帮助飞行员快速获取所需信息,提高飞行员的认知绩效,已经被应用到越来越多的军用和民用飞机上。HUD所承载的飞行信息种类繁杂、内容多,当前单一色彩编码的HUD界面已不能满足飞行员高效获取信息的需求,利用色彩分层的策略,可以有效的将HUD界面当中的信息进行重要程度的标记和区分。其次,在当前HUD界面色彩研究当中,还存在一个难以避免的问题
学位