棋王竟是机器人

来源 :当代工人·精品C | 被引量 : 0次 | 上传用户:a630939408
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在大多数用来考察人类智慧的游戏中,如国际象棋、拼字游戏、奥赛罗棋、甚至《绝境边缘》(一个益智问答游戏节目)中,机器都能毫不费力地击败人类。但围棋一直是一个例外。这款游戏有着2500年的历史,比国际象棋要艰深复杂得多,即使是最机敏的计算机系统,也比人类围棋大师要差了一大截。就在本月初,一些业内顶尖的人工智能专家还质疑近期内我们能否在这方面取得突破。去年更有很多人认为,还要再过10年,机器才可能在围棋比赛中取得上风。
  但谷歌却先人一步成功了。“这比我想象的要快得多。”法国研究人员雷米·科隆说道。他研发的人工智能系统曾是世界上最出色的机器围棋选手。
  谷歌DeepMind团队自称“人工智能领域的阿波罗计划”。2015年10月,他们在伦敦组织了一场机器与人类之间的对决。该团队研发的系统名叫AlphaGo,它要对付的人类选手是欧洲围棋冠军樊麾。在《自然》杂志的一名编辑和英国围棋联合会的一名权威人士的监督下,他们连续进行了5轮较量,AlphaGo均取得了胜利。“无论是作为一名研究人员还是编辑,这都算是我职业生涯中最令人激动的时刻之一。”《自然》杂志编辑唐吉·肖尔德博士在一次记者会上说道。
  英国时间1月27日早晨,《自然》杂志发表了一篇论文,详细介绍了DeepMind团队研发的系统。该系统采用了一种名叫“深度学习”的人工智能技术,这种技术在该领域的地位正变得越来越重要。DeepMind的研究人员从专业棋手那里收集了大量走棋方法,总步数多达3000万次,并利用这些数据对AlphaGo系统进行了训练。但这还只是第一步而已。从理论上来说,这样的训练方式顶多能让计算机系统和最优秀的人类选手达到同等水平,不可能超越人类。因此研究人员先让该系统自己和自己比赛,在这一过程中产生更多的走棋方法,然后再用这些方法训练新的人工智能系统,逐步提高其围棋水平。
  “最重要的是,AlphaGo不仅仅是一个出色的人工智能系统,只知道实行人工植入的规则”,负责监管DeepMind团队的德米斯·哈萨比斯说道,“它还采用了目前普遍使用的机器学习技术,从而在围棋比赛中取胜。”
  这次胜利其实并没有那么新奇。谷歌、Facebook和微软等线上服务提供商已经使用了深度学习技术,用于辨认图像、识别语音、以及理解自然语言等。DeepMind将深度学习与一种名为“增强学习”的技术和其他方法结合起来,说明在未来的世界中,机器人能够学会执行各种动作,还能对周围环境做出反应。“对于机器人来说,这是顺理成章的事情。”哈萨比斯说道。
  他还认为这些手段能加速科学研究的进展。在他的想象中,科学家有一天会和人工智能系统一起工作,而这些人工智能系统将会被运用到可能取得丰硕成果的研究领域中去。“计算机系统能够处理大量数据,揭露数据结构特征,工作效率远比人类专家要高——有些事情人类甚至根本做不到。”哈萨比斯解释道,“这些计算机系统甚至能为人类专家指明研究方向,引领他们取得突破。”
  但就目前来看,围棋仍然是哈萨比斯最关注的领域。让AlphaGo在办公室中打败人类选手之后,哈萨比斯及其团队希望能在公开的竞技场上,和世界顶级围棋选手一决高下。今年3月中旬,AlphaGo将挑战韩国棋手李世[石][乙],后者赢得的国际大奖数居世界第二,是过去10年中获胜次数最多的棋手。哈萨比斯将他视为“围棋世界中的费德勒”。
  2014年年初,科隆研发的围棋软件Crazystone在日本的一次锦标赛中向围棋大师依田纪基发起了挑战,并取得了胜利。但这次对决并不公平,因为机器可以先走4步,占据了巨大的优势。当时科隆预言称,人工智能至少要再过10年才能在无让子的围棋比赛中取胜。
  这项挑战的难度是由围棋本身的特点决定的。即使是最强大的超级计算机,也缺乏在合理的时间内分析出每种走法可能的结果的能力。1997年,“深蓝”击败了世界顶级象棋棋手加里·卡斯帕罗夫,它使用的算法名叫“蛮力穷举法”。它分析了每一种可能的走法将产生的结果,而人类是不可能考虑这么多的。但这种方法对围棋就无效了。在国际象棋中,平均每回合有35种走棋方式。而围棋每回合有250种可能的走棋方式,250种中的每一种又有250种,以此类推。哈萨比斯指出,围棋棋盘上可能的布棋方式总和比宇宙中所有原子的数量还多。
  利用一种名叫蒙特卡洛树的搜索算法,像Crazystone这样的程序可以提前算出很多步走棋结果。再配合其他技术,它们还可以逐步去除需要分析的走法。这样一来,它们迟早会打败一些出色的棋手——但无法击败最出色的棋手。对于棋类大师来说,走棋很多时候靠的都是直觉。棋手会根据棋子的整体分布来选择走法,而不会细致地分析每一步的结果。“好的位置看起来就很好,”哈萨比斯说道,他本身就是一名围棋棋手,“围棋似乎也遵循一定的审美原则,所以这种游戏才得以延续数千年。”
  但在2014和2015年之交,一些人工智能专家,包括爱丁堡大学、Facebook、以及DeepMind团队的研究人员,开始采用深度学习法解决围棋问题。他们的想法是,这种技术能模拟人类的直觉,而直觉正是下围棋时必不可少的东西。“围棋是一种含蓄的游戏,讲究图案的配合,”哈萨比斯说道,“而那正是深度学习法所擅长的领域。”
  深度学习需要依赖所谓的“神经网络”,即由硬件和软件组成的、模拟人类大脑中神经网的网络。这些网络采用的不是蛮力穷举法,也不依靠人工植入的行动准则。它们会对大量数据进行分析,试图“学会”执行某个特定的任务。如果让神经网络看大量的袋鼠照片,它就能学会认出一只袋鼠。如果让它听大量的单词,你再读出这个单词时,它就能听出来你说的是什么。如果让它了解大量的围棋走棋方法,它就能学会下围棋。
  DeepMind团队、爱丁堡大学和Facebook的研究人员希望,神经网络能够通过“观察”棋子位置掌握下围棋的方法,和人类差不多。Facebook近日在一篇论文中指出,这一技术使用起来相当不错。他们将深度学习法和蒙特卡洛树搜索方法结合起来,成功让计算机打败了一些人类围棋棋手。不过他们还没有击败Crazystone和其他顶尖的人工智能系统。   但DeepMind成功将这一概念向前推动了一大步。在接受了3000万步人类的围棋走法训练之后,DeepMind神经网络能够以57%的成功率预测人类下一步的走棋方法。这个成功率可谓十分惊人,因为此前的记录只是44%。接下来,哈萨比斯及其团队采用增强学习法,让这个神经网络和另一个与之稍有不同的网络进行比拼。在两个神经网络比赛的同时,系统会追踪哪种走法带来的效益最大。利用这种方法,该系统越来越能够识别出哪种走法能够取得成功,哪种走法则会导致失败。
  “AlphaGo的神经网络和自己比赛了上百万次,在这一过程中不断改进,全靠自己学会了新的走棋策略。” DeepMind团队的一名研究人员戴维·希尔佛说道。
  据希尔佛称,这种方法使AlphaGo在众多会下围棋的人工智能系统中脱颖而出,其中也包括Crazystone系统。然后研究人员将上一步得到的结果输入二级神经网络中。该网络使用一级网络建议的走棋方法,使用了很多相同的方法来预测每一步的结果。这和“深蓝”下象棋时的方法类似,只不过AlphaGo系统会边下边学,分析更多数据,而不是通过蛮力穷举法探索每种可能的结果。利用这种方法,AlphaGo不仅学会了如何打败现有的人工智能系统,还击败了顶级的人类棋手。
  和大多数先进神经网络一样,DeepMind系统使用的机器也配备了图形处理器(GPU)。这些芯片最初是用来为游戏和其他对图形敏感的程序处理图像的,但研究人员发现,GPU也很适合用来开展深度学习。哈萨比斯表示,只需要用一台装配了大量GPU芯片的计算机,DeepMind就能够运行得很好。但在与樊麾对战时,研究人员使用了规模更大的计算机网,共装载了170枚GPU芯片和1200台标准处理器(CPU)。该系统在训练时和实际作战时,使用的都是这一大规模计算机网。
  等AlphaGo前往韩国挑战世界冠军李世[石][乙]时,哈萨比斯的团队将使用同样的装置,不过他们会对其进行不断改进。这意味着,他们需要联网才能和李世[石][乙]作战。“我们正在铺设自己需要的网络光纤。”哈萨比斯说道。
  据科隆和其他专家称,打败世界冠军李世[石][乙]比打败樊麾要难得多。但科隆对DeepMind团队寄予厚望。在过去的10年中,他一直在努力打造能击败世界顶级棋手的围棋系统,而他现在认为,这样的系统已经被研发出来了。“我现在买GPU买得不亦乐乎。”他说道。
  AlphaGo具有极其重要的意义。它采用的技术不仅能用于机器人和科研领域,从类似Siri的移动数码助手,到进行金融投资,这一技术在很多任务中都能助人一臂之力。“你可以用它来解决各种棘手的问题,处理任何需要用到策略的、类似于游戏的事情。”深度学习初创公司Skymind的创始人克里斯·尼克尔森说道,“比如战争或商业交易等。”
  有些人对此感到有些担忧,尤其是当他们想到DeepMind系统是通过自学学会围棋的时候。该系统不仅仅是通过人类提供的数据来学习的,它还会产生自己的数据,做到自己教自己。就在前几个月,特斯拉创始人伊隆·马斯克和其他人纷纷表达了自己的担忧,认为这样的人工智能系统迟早会超越人类,并脱离我们的掌控。
  但DeepMind系统还处在哈萨比斯等研究人员的严密控制之下。虽然他们正在使用该系统破解一款极为复杂的游戏,但游戏到底只是游戏而已。的确,要想媲美真正的人类智慧,AlphaGo还有很长的一段路要走,还远称不上超级智能。“眼下的情况非常规范,”人工智能法律教授、华盛顿大学的技术政策实验室创始人雷恩·卡罗说道,“该系统的理解能力并未真正达到人类的水平。”但该系统指明的方向的确如此。如果DeepMind的人工智能系统能理解围棋的玩法,也许它迟早会明白更多的东西。“会不会整个宇宙都仅仅是一盘巨大的围棋呢?”卡罗问道。
其他文献
汶川地震发生后,我国社会组织积极参与,发挥的作用效果显著,改变了以往在大灾害中作为不大的局面,展示了社会组织在灾害救助中的独特作用,引起了社会的广泛关注。在近几年的
“留白”艺术在书画中可以创造出无画处皆成妙境的艺术境界,在小学数学教学中运用“留白”艺术可以使学生的学习空间更为广阔,训练学生的思维,使学生富有创新思维,培养学生的
期刊
“法律是治国之重器,良法是善治的前提。”党的十八届四中全会对在新形势下全面推进依法治国进行了详尽的部署,中国的法治建设由此翻开了新的篇章。回顾中国共产党的执政历史
国家构建失败是德意志帝国崩溃的原因之一。近代德意志国家构建进程受到特定政治社会环境的塑造。德国国家构建的首要任务是完成国家内部的政治统一。由资产阶级领导的强调协
随着交通工具的发展,地球仿佛渐渐缩小,旅行越来越便捷。而数码技术的发展,让我们的眼界变大,创意有了更多可能。如果你厌倦了循规蹈矩的现实世界,就自己动手缔造一个不同寻
2004年夏天我去村里教书,闲时在村里各家走走,拍了大伙儿不少照片。  在虎虎出生前,我就是他家的常客。  虎虎生下半年,他爸爸才来看他,那是个比虎虎的姥爷还老的老头,是虎虎妈的第二个男人。妈妈小时候被骡子踢了,钱都认不得,在嫁人上吃了不少苦头。传说,虎虎爸说要拿虎虎去换五个大绵羊呢。  虎虎一天天长大,大伙儿说,那个不会数数的“麦尔彦”(虎虎妈妈)还养了这么个叫人心疼的儿子,白白胖胖的,眼睛那么
1总则1.1目的为保证秦山核电厂在事故情况下及时有效地采取应急响应措施,控制事故状态发展,防止或最大限度地减少事故的后果或危害,保护环境,保护核电厂,保障工作人员和公众
期刊
期刊
自由是人生追求的最高目标,近代先进的中国人为追求自由的理想信念在不懈的努力着、奋斗者、探索着,李大钊是我国共产主义运动的先驱和最早的马克思主义者,也在追求着自由,而且一
拍摄地点:乌克兰,罗夫诺柯烈万镇/拍摄时间:5月3日,16:00/INFO:奥林巴斯E-5,F5.6,1/1250秒,ISO 800位于柯烈万镇的这段神奇铁路,道往一座木材加工厂,隔几天就会有列运送木材