论文部分内容阅读
人工智能是计算机科学中一个非常重要的研究领域,它研究的内容是如何使机器能够像人类一样感知环境,以及代替人类去完成一些复杂的工作。计算机博弈是人工智能的一个重要研究方向,研究者们发现将深度学习、强化学习和自主学习相互融合后可以产生很强大的计算机博弈系统。AlphaGo就是这么一款计算机博弈系统,该博弈系统攻克了人类最为困难的棋类游戏之一。在对该博弈系统进行研究时,发现其算法在给出最佳行为时,并未给出棋局中当前玩家面临的风险;该算法目前适用于敌我双方交替出手,尚未给出处理连续出手情况,缺乏通用性,具有风险预测和更加通用性的机器博弈算法更具有现实意义与应用前景。基于以上背景,受AlphaGo算法的启发,本文深入研究了策略网络、价值网络、蒙特卡洛树搜索算法,提出了自学习策略价值风险网络模型算法,并设计一个仿真系统验证该算法,本文主要内容和创新点如下:(1)提出了一种风险网络模型算法。该模型针对博弈系统未给出推荐行为的风险预测,本文提出风险网络模型,利用了深度学习方法,通过卷积神经网络来提取博弈局面的特征,然后再经过多层全连接后,按数据标签进行训练。在数据标签中包含了各类风险参数,经过大量数据训练后的风险网络模型,就可以根据输入博弈局面预测出各种风险估值,在推荐某个行为的同时给出了面临的风险预测。(2)提出了一种自学习策略价值风险网络模型算法。针对分别训练策略网络,价值网络和风险网络需要消耗很长的训练时间和很多的计算机资源问题。本文提出将策略网络、价值网络和风险网络融合到一个策略价值风险网络,经过融合后的网络,可以一次训练成型,节省训练时间和降低了训练成本。本文同时采用蒙特卡洛树与策略价值风险网络构建了自学习策略价值风险网络,使得该算法不依赖于外部的博弈经验数据,解决了收集样本数据的问题。(3)提出了一种新蒙特卡洛树搜索算法。该算法针对原有算法仅支持博弈双方交替出手,缺乏通用性进行了改进,本文提出了支持连续行为的蒙特卡洛树搜索算法,在原有算法的基础增加节点标识,改进了节点扩展和反向传播方式。改进后的算法可以适用于更广泛博弈场景,不受再受限交替出手的约束。(4)设计并实现了一个简单系统用于验证自学习策略价值风险网络算法。本文以扑克博弈场景构建了一个仿真系统,设计与实现整体架构和各个模块。