价值神经网络在计算机围棋的优化研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:wl349682847
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于人工智能来说,棋类由于其巨大的复杂度一直是最具有挑战的游戏。围棋自从被创造出来,已经有数千年的历史了,在19路围棋中,即棋盘是由19*19个纵横交叉点组成的,每个交叉点都有黑白空三种不同的状态,则博弈树的复杂度在10的300次方左右,其天文数字远远的超过了宇宙中原子的个数。在象棋与国际象棋被计算机用穷举加上搜索的方法战胜了世界上顶级的棋手后,围棋成为了人工智能最想要征服的游戏。但是,传统的计算机围棋程序面对职业围棋棋手时仍然被让3到4子,在2015年国际学术界普遍认为解决围棋问题至少需要10年到20年的时间。但是,2016年3月,DeepMind团队的人工智能程序AlphaGo以4比1的成绩战胜了韩国棋手世界围棋冠军李世乭九段,引起了围棋界以及人工智能界的广泛关注,这对于计算机围棋来说具有跨时代的意义,AlphaGo所使用的深度学习技术也成为人们关注和讨论的热点。AlphaGo围棋程序程序通过决策与评估两个大脑的组合进行围棋的对弈,策略大脑对当前盘面进行下一步棋的选择,评估大脑对当前的盘面进行大局观的评价。本文主要研究AlphaGo的价值神经网络的设计与实现,通过从围棋数据集的制作,到价值神经网络模型的复现,从网络训练过程中的算法优化,到实现一个36层深度残差价值神经网络,最后进行大规模分布式的神经网络的训练,并训练出更为精确的价值神经网络。本文研究的目的在于设计出一个更为精确的价值神经网络,该网络可以准确的预测出当前盘面的黑子与白子的胜率,具有很好的大局观,从而可以提升计算机围棋的水平,同时价值神经网络的工作模式可以应用解决生活中的估值问题。本文相较于AlphaGo的价值神经网络在数据集制作,网络模型的构建和大规模分布式训练方面都有较大的改进,从而提升了估值的准确性。
其他文献
为确保“世界的香格里拉”知名度和美誉度,迪庆州各部门在认真做好旅游市场整治工作的同时,还深入旅行社、景区和面向游客的商店等开展旅游市场联合督查。针对“病根”,制定规范
提出了一种改进的蜜蜂进化型遗传算法。在该算法中,通过分析随机种群规模对算法收敛性能的影响,可以发现在算法的搜索过程中,对随机种群规模的需求是随群体状态的演变而动态
“我们已经连续三届参加晋江的鞋博会了,每年来这里都有斩获,这里已成为我们公司在大陆成长最快的市场,这几年我们的鞋机仅在晋江的销售额就保持了25%以上的增幅。”19日,在第14届
在急性胰腺炎(AP)病因分型中,高甘油三酯血症性胰腺炎(HTGP)以往被认为是少见的临床类型,约为4%-7%。近年来高甘油三酯血症(HTG)在急性胰腺炎病因构成比中上升至第3位,约为12.6%,成为继胆源
转经筒又称嘛呢经筒,起源于象雄雍仲苯教,是藏传佛教信徒祈祷最常用的法器之一,形如桶,中间有一个作支撑的轴,桶内装“六字大明咒”经文,外面绘有精美的图案。最常见的是手摇的小型
全站仪属于计量设备,按我国的计量法规定,必须进行周期检定以保证其计量性能正确、量值传递可靠。国标JJG 703-2003光电测距仪检定规程和JJG 100-2003全站型电子速测仪检定规
截至2016年底,西藏非公经济市场主体达到18.32万户,比2011年增长64%;注册资本(金)达到4931.27亿元,是2011年的15倍;从业人员达到109万人,是2011年的2.2倍。
10月16日上午,2018电商助力西藏行——“极净当雄&环球捕手”精准扶贫战略合作发布会在拉萨举行,并举行“极净当雄&环球捕手”电商精准扶贫战略签约仪式、当雄牦牛肉全网发售启动
在聚邻甲苯胺(POT)膜修饰电极上用电化学法沉积Pt微粒,由SEM与XRD表征其表面形态与晶面取向,同时研究异丙醇在金属化POT膜电极上的氧化行为。结果表明,Pt在POT膜上的沉积呈现晶面
8月21日下午,2017·中国拉萨雪顿节招商引资项目推介会暨集中签约仪式举行。此次推介会是今年拉萨雪顿节重要活动之一,也是拉萨市积极实施招商战略、推动全市经济快速发