论文部分内容阅读
人工智能在现今社会中早已被充分运用至各个领域,如航天、军事、制造、商业、医学等等。而机器学习最初的研究目标则是让计算机系统具有人‘学习’的能力,以便实现人工智能。机器博弈作为研究人工智能的载体,有着如‘果蝇’在研究遗传基因时的良好优势。为此,机器博弈也被称为人工智能研究的‘果蝇’。围棋作为众多博弈游戏中的一种,有着复杂的状态空间。这直接意味着围棋机器博弈研究,亦有着相当的难度。将机器学习应用至围棋机器博弈中,让围棋博弈系统拥有自学习能力,以达到‘智能’的博弈。本文将围棋机器博弈系统看作一个博弈智能体,该智能体利用已有的棋谱知识或称经验知识,通过不断地试探性下棋,从中获取可利用知识,寻找当下或几个步骤之内的最优步伐,以求胜利,并最终完成下棋。这个过程总的概括为一个‘搜索’过程,在这个搜索过程中,博弈智能体通过一定的方法对经验进行学习,最后获得可用知识,达成目标。文章主要分析了如下几个问题:1.阐述博弈相关概念,机器博弈常用算法,以及围棋机器博弈的特点及关键技术;分析机器学习对智能的重要作用,以及在围棋机器博弈中应用机器学习算法的意义;2.介绍机器学习在围棋机器博弈中的解决方法,包括蒙特卡洛思想、人工神经网络以及增强学习。其中,重点介绍了增强学习中时间差分算法的原理机制与应用。建立了基于时间差分算法的围棋机器博弈系统的模型,并运用至重理工‘骑士队’围棋机器博弈中;3.量化围棋博弈动作,改进应用在围棋机器博弈中的时间差分算法,将经过时间差分算法学习后的棋盘状态值作为选取动作后所得的奖励之一,使博弈智能体获得更接近真实的棋盘信息。4.采用围棋机器博弈平台实际对弈方式进行试验,不断进行对弈学习,逐步提高博弈能力;通过大量实验及训练,并比较算法应用前后、改进前后博弈智能体的博弈水平,验证采用时间差分算法与改进效果。部分研究成果参加了全国比赛,取得了不错的成绩,这些都表明了本文算法设计的有效性。