论文部分内容阅读
近年来,许多强化学习模型取得了令人满意的成绩.然而,其大多数还要求有较大量的对战训练数据,否则很容易产生模型冷启动、过拟合等一系列问题.针对这些问题,该文针对空战环境,提出了一种更为稳定有效的空战环境下行动策略设计.在融合自注意力机制的同时改进了群落学习(Population-based Learning,PBT)在现有强化学习模型训练中的应用.本文设计模型PSA-Air(Population-based Self-attention Air Combat Model),在尚未结束的2021首届全国空中智能博弈对抗大赛中取得了优秀的成绩.经实验证明,本文算法设计在收敛速度以及最终性能上具有一定的优越性.