基于强化学习的爱因斯坦棋的算法研究

来源 :电脑知识与技术:学术版 | 被引量 : 0次 | 上传用户:NC330201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
爱因斯坦棋是我国全国大学生指定计算机博弈比赛项目之一,在本文发表之前,多数队伍使用了搜索树算法来参加比赛,而为了提高算法的表现,多数算法需要加入具体的模板处理。然而,如果需要得到最优表现,则要加入大量模板并尽可能地搜索更深的博弈树。而使用深度强化学习并结合使用树搜索不仅不需要加入过多的模板处理、搜索深层树节点,还能随着接收不同的算法和样本,智能体可以逐步地改善表现,并进一步提高胜率。因此,本文通过使用了深度强化学习中的DQN算法,并结合了极大极小树搜索算法和随机生成行为法测试了该算法的胜率,最后取得了远优
其他文献
如今,随着计算机处理器、运行内存和磁盘空间等硬件的更新换代,计算机的存储能力和处理运算能力得到了大大提升,在很大程度上促进了图像处理与识别技术的发展,很好地提升了信息处理的效率,有效解决了大数据时代信息加工处理速度慢、周期长的棘手难题。基于此,该文将对计算机图像处理与识别技术进行简要概述,并探讨新时期计算机图像处理与识别技术的具体应用,旨在为相关工作者提供有价值的参考资料。
随着介入医学的不断发展心脏介入治疗也成为发展的必然趋势,是目前世界上治疗冠心病的一种比较先进的技术,经皮穿刺桡动脉具有并发症少,无需卧床制动,大大缩短住院日,节省住院费用
混合式学习模式在近年来的教学实践中已经被广泛采用,随之而来的,就是如何对混合式学习课程进行合理有效的评价。数字设计类课程是采用混合式学习模式最普遍的课程类型,所以
目的:观察长春瑞滨(NVB)+顺铂(DDP)与紫杉醇(TAX)+DDP两种化疗方案治疗乳腺癌复发转移的临床效果和不良反应。方法:按照随机、平行、对照原则,将89例乳腺癌复发转移患者分为NP组44例和TP
在射频频谱分析和宽带调制测量中,需要实时采集处理高速的中频数字化信号,其A/D变换精度和数据传输速率是制约系统测量性能的基本因素.本文以实例介绍了一种基于PCI总线数据
介绍了一种基于AT89C2051单片机的双向门进计数器的实现方法,同时讨论了单片机同PC机串行数据通讯以及VB6环境下的数据库编程技术.
介绍了采用PLC构建静电加速器控制系统的抗干扰设计.针对加速器内部特殊的电磁环境,通过采取适当的防护措施、合理的硬件配置和软件滤波设计相结合的方法,保证了系统的正常运
妊娠合并子宫肌瘤是产科常见的高危因素,近年来,随着产前检查的日益被重视及超声技术在产科领域的广泛应用,其发生率呈上升趋势。妊娠合并子宫肌瘤的发生率占肌瘤患者的0.8%-
该文简单论述了信息检索技术发展的历程及主要检索手段,在此基础上,以信息检索技术的主体需求与教育教学中的学生主体效应为连接点,探讨了信息检索技术在教育教学中的应用方
本文介绍了一种面向重要(主要是机泵)旋转机械群集的在线监测技术和相应的实施案例。使用S8100重要机组群在线监测和分析系统实现监测要求。系统硬件采用分布式结构,结合SMT技