AlphaGo进化：3天100:0碾压旧版不使用人类知识

来源 :中国经贸聚焦 | 被引量 : 0次 | 上传用户：zfx523

【摘要】

：

【出处】

：

中国经贸聚焦

【发表日期】

：

2017年11期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　当地时间10月18日，谷歌人工智能团队DeepMind团队在国际学术期刊《自然》上发表论文，宣布新版AlphaGo——AlphaGo Zero可以在没有人类指导的情况下学习，其水平超过此前所有AlphaGo（阿尔法狗），仅用3天就碾压了此前击败李世石的旧阿尔法狗。
　　AlphaGo Zero仅拥有4个TPU，零人类经验，所以，它的名字叫作零（Zero），Nature这篇论文——《Mastering the game of Go without human knowledge》中，DeepMind展示新版本围棋程序AlphaGo Zero在数百万局自我对弈后，随着程序训练的进行，独立发现了人类用几千年才总结出来的围棋规则，还建立了新的战略。《自然》为该论文配发两篇评论文章，一篇來自计算机科学家，一篇来自围棋选手。
　　今年5月乌镇大会上，中国棋手、世界冠军柯洁9段以0：3不敌AlphaGo。随后DeepMind创始人得米斯·哈萨比斯（ DemisHassabis）宣布，AlphaGo将永久退出竞技舞台，不再进行比赛。
　　同时哈萨比斯表示：“我们计划在今年稍晚时候发布最后一篇学术论文，详细介绍我们在算法效率上所取得的一系列进展，以及应用在其他更全面领域中的可能性。就像第一篇 AlphaGo 论文一样，我们希望更多的开发者能够接过接力棒，利用这些全新的进展开发出属于自己的强大围棋程序。”
　　DeepMind如约在Nature发布了这篇论文《Mastering the game of Go without human knowledge》。
　　论文中，DeepMind展示了AlphaGo Zero一种新的强化学习方式，通过自我对弈学习AlphaGo Zero 成为自己的老师。这个学习系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。
　　在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的最终赢家。这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本，再次重复这个过程。在每一次迭代中，系統的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的 AlphaGo Zero版本。
　　这种技术比上一版本的 AlphaGo 更强大，因为它不再受限于人类知识的局限。在进行了3天的自我训练后，AlphaGo Zero在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世石。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。

其他文献

结婚“零彩礼”，婚姻不该是一场交易

据报道，最近河北曲周县的新娘李晓利因为彩礼的事走红网络，她不要男方一分钱彩礼，有网友称赞为“彩礼乱象中的一股清流”，亦有评论称，李晓利敢于挑战世俗，打破传统的“枷锁”。万张5元、千张百元及600张50元寓意“万紫千红一片绿”，三斤百元人民币，约14万元成为了“新三金”。近年来，持续走高的“彩礼”成为很多男方家庭不能承受之重。　　“要彩礼”，是某些父母想要为女儿争取婚后一个较稳定的生活。两个年轻人结

期刊

吴爱英任职最长司法部长严重违纪被开除党籍

2017年10月14日，黨的十八届七中全会在北京召开。会上审议并通过了中央纪委关于吳爱英严重违纪问题的审查报告，确认中央政治局之前作出的给予吴爱英开除党籍处分。　　2016年3月2日至4月30日，中央第六巡视组对司法部党组进行了专项巡视，反馈指出如下问题：党的领导弱化，对中央有关决策部署学习领会不够深入、贯彻执行不够到位，推进重点领域改革举措不够及时、有效，存在“中梗阻”现象；党的建设缺失，坚持民

期刊

利率、汇率波动对房地产价格的影响

摘要：本文利用上海2000年1月~2007年12月的实际发放的贷款总额，美元指数和房地产价格指数的月度数据建立VECM模型,使用Granger因果检验和方差分解分析等方法对我国的房地产价格和利率，汇率的关系进行实证检验。得出结论,全国贷款总额上升,实际贷款利率下降，房地产的价格会上升。房地产价格上涨吸引了外资的流入,外资的流入对上海的住房价格上涨产生了影响。在现阶段调控利率和控制外资过度流入房地产

期刊

凤凰涅磐

摘要：整合全省广电网络是顺应广播电视行业发展的需要，有利于优化资源配置，取得规模效益，减少重复投资，节约建设成本；有利于提升经营能力和水平，推动广电网络发展，实现“数字江苏”，加快我省信息化进程；有利于带动我省信息产业及相关产业发展，形成新的战略性支柱产业。整合全省广电网络也是我省“两个率先”在广播电视行业的生动实践。在这样的背景下，在单位的外部环境和内部运行机制都发生了变化的情况下，连云港广电网

期刊

林国耀龙岩市委书记任中纪委驻中国保监会纪检组组长

央视网消息，保监会官方网站“领导简介”今年10月10日更新显示，福建省龙岩市委书记林国耀任中央纪委驻保监会纪检组组长，保监会党委委员。从龙岩市委书记到纪检组组长，从地方到中央，林国耀的提升可谓华丽转身。　　1966年出生的林國耀，福建仙游人。1990年9月加入中国共产党，1986年7月参加工作，大学学历。1986年大学毕业后，就开始在福建任职，任厦门市计委科员。2010年7月29日下午，厦门市十三

期刊

美国疾病防控中心预测机器人对人类的健康威胁

美国疾病防控中心（CDC）创建了研究机器人对人类工作者构成的健康威胁的新项目，他们得出的结论是，有必要开始保护人类工作者免受机器人威脅了。CDC表示， 1992年到2015年，自动化技术已经使61人丧生，甚至超过鲨鱼造成的死亡人数。然而，自动化技术安全、健康安全研究中心主任表示，随着时间推移，这种原因造成的死亡会上升，因为越来越多的产业机器人投入使用，机器人在美国的企业中几乎随处可见。同时协作共生

期刊

不到80天！男子环球骑行破纪录

英国冒险家博蒙特（Mark Beaumont）日前完成了一项壮举，用不到80天的时间骑自行车绕地球一圈，刷新了吉尼斯世界纪录。　　當地时间9月18日，时隔78天14小时又14分钟，博蒙特骑着自行车重返旅程起点法国巴黎，完成骑行环游世界壮举。在他之前，骑行环游世界的世界纪录是123天。　　同时，博蒙特也打破了经典小说《环游世界80天》的纪录。在小说中，主人公花了80天搭乘火车、船、热气球等交通工具完

期刊

马云投资千亿元创立达摩院将服务20亿人口

10月11日上午，在2017杭州·云栖大会开幕上，阿里巴巴集团董事局主席马云宣布成立达摩院，将在全球各地建立实验室，并引入更多高校教授参与其中，未来三年投入1000亿元进行基础科学研发。马云表示，达摩院至少要服务全世界20亿人口，为1000万家企业创造盈利的空间和机遇，同时希望提供1亿个就业岗位。　　云栖大会上，马云坦言阿里巴巴在 BAT 中一直是被认为是技术最弱的，但阿里始终没有停止过对技术的投

期刊

一年身家暴增四倍恒大董事长许家印成中国首富

尽管中国政府采取措施为火热的房地产市场降温，但在新出炉的一项财富榜单上，中国首富仍是一位房地产大亨，只不过换了一个人。　　总部设在上海的研究公司胡润百富近日公布，中国恒大集团董事长许家印在其年度中国百富榜上位列榜首，估计他的财富为430亿美元，是上年同期的近四倍。　　虽然过去一年中国政府在努力控制大城市的房价和按揭贷款规模，但36岁的房地产开发企业碧桂园控股有限公司副主席杨惠妍在榜单上的排名也大幅

期刊

教育部部长陈宝生：2020年全面建立新高考制度

随着今年我国迈进“新高考元年”，这项改革加速推进。在10月19日的十九大中央国家机关代表团会议讨论开放日上，十九大代表、教育部部长陈宝生表示，过去的五年是教育改革全面深化的五年。在高考招生制度改革方面，今年上海和浙江试点已经落地，经评估已取得成功，年内还有4个省要开始试点，到2020年我国将全面建立起新的高考制度。　　制度全面更新　　“本次高考制度改革是1977年恢复高考以来规模最大、涉及面最广、

期刊

AlphaGo进化：3天100:0碾压旧版 不使用人类知识

与本文相关的学术论文

AlphaGo进化：3天100:0碾压旧版不使用人类知识