论文部分内容阅读
计算机博弈一直是人工智能最具挑战性的研究方向之一。它也称机器博弈,主要分为完全信息计算机博弈和不完全信息计算机博弈两大类型,其中,完全信息计算机博弈是指博弈各方在博弈状态、博弈进程完全透明下的博弈,而不完全信息计算机博弈是指博弈各方的博弈状态或过程信息不透明、或不完全透明下的博弈。论文中的德扑博弈就属于是非完全信息计算机博弈的一个实例,论文以它为应用研究对象,探讨人工智能技术在非完全信息博弈中的实际应用。机器学习是人工智能领域的一个研究热点,以谷歌阿尔法狗为代表的围棋博弈程序,表现出了强大对弈能力,围棋仅仅是双人完全信息博弈棋类游戏,而德扑属于两人或两人以上的非完全信息博弈牌类游戏,因此,如何对照围棋博弈方法将强化学习与神经网络相结合,并应用于非完全信息的德扑博弈中,是计算机博弈领域亟待解决的问题。特别是强化学习面对德扑博弈中信息不完全、高维状态空间、存在过估计问题、难以快速发现最优解,以及难收敛等问题,极大地影响了博弈程序的战力。论文针对上述问题,采用人工神经网络和强化学习相结合的方法,改进强化学习算法,改进卷积神经网络,研制德扑决策模型,最后验证决策模型达到预期效果。论文具体研究工作内容为:(1)依据决策模型的网络结构,提出一种德扑博弈决策模型的扑克数据表示方法,让数据更好地进行卷积。(2)依据零和博弈思想,设计基于UCT算法的德扑决策模型回报函数,根据博弈产生的实际收益与UCT算法输出的期望收益之差,决定决策模型的奖惩,当实际收益大于期望收益时,则对决策模型进行奖励,当实际收益小于期望收益时,则对决策模型进行惩罚,以此对决策模型进行更新。(3)针对卷积神经网络的过拟合问题,使用dropout函数优化神经网络,增加神经网络连接的随机性和稀疏性。改进卷积神经网络的激活函数,将LReLU函数与Softplus函数相结合而构造L-S函数,提高了卷积神经网络的收敛性。(4)依据优势学习思想,通过引入更正函数的方法,改进DQN算法的评估函数,优化DQN算法的动作选择策略。然后,通过融合SARSA算法的更新目标,动态的结合DQN算法和SARSA算法各自优点。最后,提出DQN-S算法,提高了算法的学习效率。(5)将上述研究成果应用到德扑决策模型,采用python语言以及Tensorflow框架,实现了德扑博弈系统。最后进行了实验验证,改进后的德扑决策模型与改进前相比,改进后的德扑决策模型赢得了更多筹码,决策模型决策能力得到了明显提高。本文实现的德州扑克博弈系统参加了2019年在北京举办的全国大学生计算机博弈大赛,获得了一等奖,验证了系统的有效性。