阿尔法元：每一次它都变得更聪明

来源 :方圆 | 被引量 : 0次 | 上传用户：zhuzi1976

【摘要】

：

【出处】

：

方圆

【发表日期】

：

2017年21期

【关键词】

：

《射雕英雄传》聪明现实世界右手左手自娱小说金庸

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　阿尔法元通过与自身对弈实现了自身能力的提升，每一次它都变得更聪明，每一次棋局也更有挑战性
　　在金庸的小说《射雕英雄传》里，周伯通“左手画圆，右手画方”，左手攻击右手，右手及时反搏，自娱自乐，终无敌于天下。这个桥段着实留在一代人的记忆中。
　　现实世界中，亦有这么一个“幼童”，他没见过一个棋谱，也没有得到一个人指点，从零开始，自娱自乐，自己参悟，用了仅仅40天，便称霸围棋武林。
　　这个“幼童”，叫阿尔法元（AlphaGo Zero），就是今年5月在乌镇围棋峰会上打败了人类第一高手柯洁的阿尔法狗强化版AlphaGo Master的同门“师弟”。不过，这个遍读人类几乎所有棋谱、以3∶0打败人类第一高手的师兄，在“师弟”阿尔法元从零自学第21天后，便被其击败。
　　10月19日，一手创造了AlphaGo神话的谷歌DeepMind团队在Nature杂志上发表重磅论文Mastering the game of Go without human knowledge，介绍了团队最新研究成果——阿尔法元的出世，引起业内轰动。虽师出同门，但是师兄弟的看家本领却有本质的差别。
　　“过去所有版本的AlphaGo都从利用人类数据进行培训开始，它们被告知人类高手在这个地方怎么下，在另一个地方又怎么下。” DeepMind阿尔法狗项目负责人David Silver博士在一段采访中介绍，“而阿尔法元不使用任何人类数据，完全是自我学习，从自我对弈中实践。”
　　David Silver博士介绍，在他们所设计的算法中，阿尔法元的对手，或者叫陪练，总是被调成与其水平一致。“所以它是从最基础的水平起步，从零开始，从随机招式开始，但在学习过程中的每一步，它的对手都会正好被校准为匹配器当前水平，一开始，这些对手都非常弱，但是之后渐渐变得越来越强大。”
　　这种学习方式正是当今人工智能最热门的研究领域之一—强化学习（Reinforcement learning）。
　　昆山杜克大学和美国杜克大学电子与计算机工程学教授李昕博士介绍，DeepMind团队此次所利用的一种新的强化学习方式，是从一个对围棋没有任何知识的神经网络开始，然后与一种强大的搜索算法相结合，“简单地解释就是，它开始不知道该怎么做，就去尝试，尝试之后，看到了结果，若是正面结果，就知道做对了，反之，就知道做错了，这就是它自我学习的方法。”
　　这一过程中，阿尔法元成为自己的“老师”，神经网络不断被调整更新，以评估预测下一个落子位置以及输赢，更新后的神经网络又与搜索算法重新组合，进而创建一个新的、更强大的版本，然而再次重复这个过程，系统性能经过每一次迭代得到提高，使得神经网络预测越来越准确，阿尔法元也越来越强大。
　　其中值得一提的是，以前版本的阿尔法狗通常使用预测下一步的“策略网络（policy network）”和评估棋局输赢的“价值网络”（value network）两个神经网络。而更为强大的阿尔法元只使用了一个神经网络，也就是两个网络的整合版本。
　　从这个意义上而言，“AlphaGo Zero”譯成“阿尔法元”，而不是字面上的“阿尔法零”，“内涵更加丰富，代表了人类认知的起点——神经元。”李昕教授说。
　　上述研究更新了人们对于机器学习的认知。“人们一般认为，机器学习就是关于大数据和海量计算，但是通过阿尔法元，我们发现，其实算法比所谓计算或数据可用性更重要。”David Silver博士说。
　　李昕教授长期专注于制造业大数据研究，他认为，这个研究最有意义的一点在于，证明了人工智能在某些领域，也许可以摆脱对人类经验和辅助的依赖。“人工智能的一大难点就是，需要大量人力对数据样本进行标注，而阿尔法元则证明，人工智能可以通过无监督数据（unsupervised data），也就是人类未标注的数据，来解决问题。”
　　有人畅想，类似的深度强化学习算法，或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。不过，究竟有多大实际意义，能应用到哪些现实领域，李昕教授表示“还前途未卜”，“下围棋本身是一个比较局限的应用，人类觉得下围棋很复杂，但是对于机器来说并不难。而且，下围棋只是一种娱乐方式，不算作人们在生活中遇到的实际问题。”
　　那么，谷歌的AI为什么会选择围棋？
　　据报道，历史上，电脑最早掌握的第一款经典游戏是井字游戏，这是1952年一位博士在读生的研究项目；随后是1994年电脑程序Chinook成功挑战西洋跳棋游戏；3年后，IBM深蓝超级计算机在国际象棋比赛中战胜世界冠军加里·卡斯帕罗夫。
　　除了棋盘游戏外，IBM的Watson系统在2011年成功挑战老牌智力竞赛节目Jeopardy游戏一战成名；2014年，Google自己编写的算法，学会了仅需输入初始像素信息就能玩几十种Atari游戏。
　　但有一项游戏仍然是人类代表着顶尖水平，那就是围棋。谷歌DeepMind创始人兼CEO Demis Hassabis博士曾在2016年AlphaGo对阵李世石时就做过说明，有着3000多年历史的围棋是人类有史以来发明出来的最复杂的游戏，对于人工智能来说，这是一次最尖端的大挑战，需要直觉和计算，要想熟练玩围棋需要将模式识别和运筹帷幄结合。
　　“围棋的搜索空间是漫无边际的——比围棋棋盘要大1个古戈尔（数量级单位，10的100次方，甚至比宇宙中的原子数量还要多）。”因此，传统的人工智能方法也就是“为所有可能的步数建立搜索树”，在围棋游戏中几乎无法实现。
　　而打败了人类的AlphaGo系统的关键则是，将围棋巨大无比的搜索空间压缩到可控的范围之内。David Silver博士此前曾介绍，策略网络的作用是预测下一步，并用来将搜索范围缩小至最有可能的那些步骤。另一个神经网络“价值网络”（valuenetwork）则是用来减少搜索树的深度，每走一步估算一次游戏的赢家，而不是搜索所有结束棋局的途径。
　　李昕教授对阿尔法元带来的突破表示欣喜，但同时他也提到，“阿尔法元证明的只是在下围棋这个游戏中，无监督学习（unsupervised learning）比有监督学习（supervised learning）更优，但并未证明这就是最优方法，也许两者结合的semi-supervised learning，也就是在不同时间和阶段，结合有监督或无监督学习各自的优点，可以得到更优的结果。”
　　李昕教授说，人工智能的技术还远没有达到人们所想象的程度，“比如，互联网登录时用的reCAPTCHA验证码（图像或者文字），就无法通过机器学习算法自动识别”，他说，在某些方面，机器人确实比人做得更好，但目前并不能完全替换人。“只有当科研证明，一项人工智能技术能够解决一些实际问题和人工痛点时，才真正算作是一个重大突破。”
　　昆山杜克大学常务副校长、中美科技政策和关系专家丹尼斯·西蒙（Denis Simon）博士在接受采访时表示，阿尔法元在围棋领域的成功说明它确实有极大的潜力。阿尔法元通过与自身对弈实现了自身能力的提升，每一次它都变得更聪明，每一次棋局也更有挑战性。这种重复性的、充分参与的学习增强了阿尔法元处理更高层次的、战略复杂问题的能力。但缺点是这是一个封闭的系统。“阿尔法元如何能够超过自身的局限获得进一步的成长？换句话说，它能跳出框框思考吗？”（文章来源：澎湃新闻）

其他文献

胸围布带治疗肱骨外科颈粉碎性骨折合并...

本文对1984年6月～1989年10月收治的肱骨外科颈粉碎性骨折合并肩关节脱位308例患者,用牵引复位法、徒手整复法复位后,绑上胸围布带进行固定治疗。结果:良好者242例,占78.6%;尚

期刊

肱骨骨折肩关节脱位胸围布带

推进党务公开强化党员主体地位

党务公开是强化党员主体地位的必然要求，但现实中党务公开存在的问题限制和弱化了党员主体作用的发挥。我们要通过增强民主意识、营造党务公开氛围，建立健全推进党务公开的领导

期刊

党务公开党员主体地位必然要求基本路径

分期辨治面神经麻痹25例的体会

本文主要根据颜面神经麻痹发病的机理,对25例患者,采用三期辨治——初期疏散皮肉之淫邪,用秦艽升麻汤加减;中期搜涤经络中风痰,用牵正散加减;后期补通阳明经气血,属气血两虚

期刊

面神经麻痹三期辨治

江苏金湖：把纪律和规矩放在最前头

“谈话谈心70人次，廉政教育谈话53人次，内网通报批评12人次，发现并督促整改处理问题27个，提醒谈话18余人次。”这是江苏省金湖县检察院晒出的今年党风廉政建设成绩单。　　今年以来该院以抓早抓小、不遮不掩、不枉不纵的举措，强力推进党风廉政建设，把纪律和规矩放在最前头，正风肃纪“劲道”足。　　该院采取教育引导的形式，从正反两方面加强党性、党风和党纪教育，一到三季度共举办了三次党性教育讲座，党组书记、

期刊

金湖县江苏省纪律党风廉政建设廉政教育通报批评谈话成绩单

面瘫汤治疗面神经麻痹51例

本文自1985年以来,对确诊为面神经麻痹患者51例,用面瘫汤治疗,日一剂,分二次服。经治结果:51例中,痊愈50例,好转1例。服药时间最短7天,最长30天,平均21天。

期刊

面神经麻痹面瘫汤中医药疗法

重庆疫苗疑似掉包被调查

5月16日,“重庆疫苗疑似掉包”联合调查组通报称,此次接种的“五联”疫苗来源渠道规范,运输、储存均符合国家规范.未使用原包装注射器是因为接种护士彭某操作不慎导致注射器

期刊

联合调查疫苗重庆一次性注射器利用职务之便来源渠道国家规范接种

落实好环保第一审批权制度是减少环境信访的关键

本文根据有关法律法规规定，阐明环保第一审批权的含义与适用范围；通过比较环保与规划、国土、建设、工商等部门依照有关法律、法规规定对建设项目的审批程序，说明建立环保第一审

期刊

环境保护第一审批权制度保障信访

改革开放与马克思主义哲学

改革开放是社会主义制度自我发展和自我完善，是社会主体在一定理论指导下有目的、有计划地推动社会进步的自觉活动。在我国当前改革开放的实践中，存在着两种指导思想：一种是以马

期刊

改革开放马克思主义哲学社会主义方向资产阶级自由化社会主义现代化社会主义制度西方资本主义党的领导

海南：为做好新时代检察工作强基固本

为建设适应新时代全面依法治国要求的检察队伍,海南省检察院第二分院针对司法体制改革后本院队伍特点,探索新机制新方式,培养正规化、专业化、职业化的高素质检察队伍,为做好

期刊

检察工作海南省司法体制改革检察队伍依法治国检察院正规化专业化

检察法医拒绝“二手”病历查缺补漏完善证据

“这属于‘二手病例’，不能作为鉴定依据。”福建省莆田市检察院法医郑永海在审查一起溺水鉴定时说。　　这起溺水案发生在今年3月，莆田市仙游县58岁的林女士乘坐摩的司机林某驾驶的二轮摩托车，途中因林某驾驶不慎，导致林女士掉入溪里溺水致伤。案件发生后，办案派出所委托莆田某鉴定所对林女士因交通事故导致溺水的伤情进行损伤程度鉴定，该鉴定所出具了“重伤二级”的鉴定结论，之后司机林某以无驾驶资格在道路上驾驶机动车

期刊

检察院法医病历损伤程度鉴定鉴定依据证据补漏交通事故

阿尔法元：每一次它都变得更聪明

与本文相关的学术论文