论文部分内容阅读
近年来机器博弈受到学术界和工业界的广泛关注,机器博弈领域的研究也取得了令人瞩目的成绩,例如Deep Mind的Alphago击败顶尖围棋选手、CMU的多人德扑智能体Pluribus击败顶级牌手以及Open AI的Open AI Five击败Dota职业队伍。机器博弈相关技术也正被应用于很多实际场景中,例如智能交通、智能推荐、多轮对话、量化交易等。根据参与者是否完全掌握博弈局面的所有信息可以把机器博弈分为完备信息博弈和非完备信息博弈。现实场景中的诸多决策问题都可以建模成非完备信息博弈中的策略求解问题,但目前的机器博弈算法需要对问题的状态空间进行抽象,在高维动作空间中表现不佳,且通常仅适用于二人博弈。因此研究能够应用于复杂状态空间、支持连续动作、适用于多人博弈的非完备信息博弈策略求解算法具有重大意义。本文在虚拟自我对局的算法框架下,结合深度强化学习、多智能体强化学习、蒙特卡洛树搜索等技术来解决策略优化问题,以德州扑克和炸弹人为实验平台,研究二人和多人博弈问题中的策略求解。针对复杂博弈问题通常需要利用先验知识进行状态空间抽象的问题,本文提出了利用深度强化学习和自适应的蒙特卡洛搜索树算法来求解最优反应策略,利用模仿学习来拟合全局平均策略,实现了更加鲁棒的策略优化方法。针对传统策略优化算法在连续动作空间中表现不佳的问题,引入了基于策略梯度的强化学习算法,使得算法可以应用于高维动作空间,同时引入了最大熵来解决智能体策略优化中的探索与利用问题。针对多人博弈中的策略优化问题,采用中心化训练和分散式执行的方式,加强了全局信息的共享,降低了状态动作值网络的估值误差,同时为了解决多人博弈中的信用分配问题,引入了全局基线奖励来更准确地衡量智能体的动作收益。同时对策略模型进行预训练,来缓解智能体的奖励稀疏问题,实现虚拟自我对局的温启动加速策略收敛过程。为了验证改进的虚拟自我对局算法,本文遵循世界计算机扑克博弈大赛比赛规则实现了二人非限制性德州扑克智能体,按照Neur IPS炸弹人比赛的规范实现了多人炸弹人智能体。在二人德州扑克实验中,本文提出的基于自适应蒙特卡洛树搜索和模仿学习的虚拟自我对局优于传统的策略求解算法。在多人炸弹人实验中,文中的基于最大熵和基线奖励的多智能体虚拟自我对局算法达到了与当前先进多智能体强化学习算法相似的性能。