机器人是怎么学习的?

来源 :大众科学 | 被引量 : 0次 | 上传用户:qingqing008800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在过去的2016年里,人工智能时代便已开启。这一年,AlphaGo围棋胜了人类;微软报告ASR语音识别结果好过专业速记员;日本NHK电视报道,IBM机器Watson只花10分钟完成41名病人的診断,这通常是医生两周的工作;它读取大量资料和病人DNA后,救了一位医者束手无策的白血病人……机器人正慢慢进入我们的生活。
  不过,这些机器人在上岗工作前,也要接受一番培训学习的!
  样本数据是机器人的智商
  首先我们得明白,人类之所以生下来就具有学习的能力是因为人有智商,事实上,任何一个有学习能力的动物也都是具有智商的。这一点对于机器人来说也不例外,想要学习,就得有智商。那么,机器人的智商从何而来呢?答案是:样本数据。
  在机器人的“大脑”中,通常有这样一个数学模型,其中包括了大量的数值规律和类别模式。这些规律和模式通常都是由线性函数来组成的,这些线性函数的参数数量巨大,少的有几万,多的则有可能上百亿。
  如此看来,这样的数学模型其实并不复杂困难,不过,由于参数数量的巨大,看似简单的模型却足以涵盖各种预测和辨别情况。而在数学上,这种调整模型参数及应用模型的计算机制,都是精确有效的。
  这个时候我们就可以回答什么是机器学习了。简单地说,机器学习就是计算机利用输入的大量样本数据,调整表示规律和分类通用数学模型的参数,然后以调好的模型作答。样本的数据里潜藏着大量的信息,通过训练给予了机器知识,让机器表现出判断和预测的智能。
  机器学习基本分成无监督学习和监督学习两类。无监督学习是从样本数据分布中,按它们的聚集来分类,例如用大量的人民币硬币尺寸和重量作为样本的数据,它们在2维空间的分布聚集在几个地方。人们看后,知道它们是分成几类,依此知识判断新给的硬币类别。机器可以通过数据点间距离的计算(K-means),自动将聚类分成几组。得到各组的中心和分布范围后,再以此判别新输入硬币所对应的组别。
  许多事物看来杂乱无章,其实分属不同类别,例如学生潜力,绘画风格,只要用足够多的特征属性来描述就可以把它们区分。但对于许多的特征属性,人类需要研究归纳抽取出能理解其含义的少量特征,很难利用非常多的特征属性来分类,机器却很容易做到。在你现在的工作中,也可能应用现成的N维自动分类程序,在已经拥有数据中发现潜藏的分类。
  无监督学习就像无师自通的领悟,效率较差。有老师教学就会快得多。监督学习是最广泛最成功应用的机器学习,用我们知识来标记样本,去“教”机器学会回答问题。这个问答在数学上,是从问题的属性空间映射到答案空间的一个函数。机器学习的基本算法是从一组候选函数中,比如说线性函数,通过计算选取出与预测样本标记误差最小的函数。这个选取多是通过迭代法,沿着减小误差的梯度方向,不断修正候选函数的参数来实现。这个过程称为训练。
  深度学习才是亮点
  大量的样本数据能够让简单的模型覆盖各种预测和辨别情况,但有一个缺点,那就是因为变量个数的巨大,使得这样的工作方式难以分析归纳成像物理规律那样简单明晰的因果性机制,无法从人脑逻辑推演的角度来理解。这就导致了机器人的学习很难提升到更高的深度。
  所谓深度学习,就是用多层神经元构成的神经网络,以达到机器学习的功能。这些多层的电脑网络像人类大脑一样,可以收集信息,并基于收集到的信息产生相应的行为。简单地讲,深度学习技术是对人脑的一种模拟,因而可以完成很多人脑所具有的功能。
  深度学习最为人所熟知的是视觉功能。我们的相机可以像眼睛一样看到这个世界,却不能像大脑一样看懂这个世界,深度学习恰恰补上了这个短板。有了深度学习,百度识图可以准确识别照片中的物体类别,并对照片进行自动归类或搜索。有了深度学习,我们可以很方便地刷脸付款。有了深度学习,特制机器可以检测一定空间内所有人员、车辆的行踪,并对可疑和危险事件及时报警。
  传统的机器学习方法一般只能挖掘简单的线性关系,如1 1等于2。然而,大千世界并不是这种简单关系所能描述的,如收入与年龄、性别、职业、学历的关系。深度学习的出现改变了这种现状,它的灵感来源于模仿人类大脑神经网络。
  科学家发现,人类大脑皮质不是直接对视网膜传递过来的数据进行特征提取处理,而是让接收到的刺激信号通过一个复杂的网络模型进行筛选。这种层级结构大大降低了视觉系统处理的数据量,并最终保留了有用的信息。
  如果要想让机器人像人一样学习,那么就要让机器人拥有一个类似“人脑”的神经网络,创造这样一个神经网络需要强大的硬件支撑,早期的人工智能智能创造出2到3个神经层。不过由于近年来GPU(图形处理器)、超级计算机和云计算的迅猛发展,让深度学习有了很大的发展。
  2011年,谷歌大脑用了1000台机器、16000个CPU处理的深度学习模型大概有10亿个神经元。而现在,我们只需几个GPU便可以完成同样的计算了。
  专家预计,再过几年,我们口袋里的手机也可以运行像人脑一样复杂的神经网络了。

  Alphago的学习过程
  去年3月份,Alphago3:1战胜李世石,名声大噪。今年1月初, Alphago升级版Master在网上对阵全球各大围棋高手,再次以60连胜的傲人成绩叫人目瞪口呆。Alphago成了当下人工智能界里最“红”的大明星。
  Alphago的学习总体上包含了离线学习和在线对弈两个过程。
  离线学习过程分为三个训练阶段。第一阶段:利用3万多幅专业棋手对局的棋谱来训练两个网络;第二阶段:利用第t轮的策略网络与先前训练好的策略网络互相对弈,利用增强式学习来修正第t轮的策略网络的参数,最终得到增强的策略网络;第三阶段:先利用普通的策略网络来生成棋局的前U-1步(U是一个属于[1, 450]的随机变量),然后利用随机采样来决定第U步的位置(这是为了增加棋的多样性,防止过拟合)。
  这样,通过大量的自我对弈,AlphaGo产生了3000万盘棋局,用作训练学习价值网络。不过,由于围棋的搜索空间太大,3000万盘棋局也不能帮AlphaGo完全攻克围棋问题。
  而在线对弈则分为5个步骤:根据当前盘面已经落子的情况提取相应特征;利用策略网络估计出棋盘其他空地的落子概率;根据落子概率来计算此处往下发展的权重,初始值为落子概率本身(如0.18)。利用价值网络和快速走棋网络分别判断局势,两个局势得分相加为此处最后走棋获胜的得分;利用第四步计算的得分来更新之前那个走棋位置的权重(如从0.18变成了0.12);此后,从权重最大的0.15那条边开始继续搜索和更新。
  不过,Alphago仍有很多缺点。首先,如果对手(人类)建立比较复杂的棋局,每步棋都牵连很多个不同的局部棋变化,那么这时候Alphago的搜索空间急剧增大,精度就会大打折扣。
  其次,Alphago能够战胜这么多高手,跟它的价值网络有很大的关系,有专家甚至称如果没有了价值网络,Alphago的真实水平就只有3段左右。但Alphago的价值网络有时候还不能完全避免一些怪异、甚至错误的判断。这样的不稳定因素也是Alphago的一大缺点。(编辑/有庆)
其他文献
北京时间6月4日消息,美国“好奇”号火星漫游车近日又有新发现.纽约“好奇”号长时间探测盖尔火山口泥岩结果表明,30亿年前填满这里的湖泊有不同的层次,均满足微生物生存需要
"在地球上你也可以找到火星的痕迹,那就是火星陨石。"陨石是指降落至地球表面的地外天体岩石。火星表面经常遭受小行星或者彗星的撞击,一些较大的撞击会导致火星岩石溅射并摆脱
祖母出生在1912年,是那个年代被缠过足的小脚女人。她雖然很瘦,但无论走路还是坐着,腰杆总是挺拔直溜。  新中国刚刚成立不久,父亲响应国家号召,踊跃报名入伍参军,成为一名军人。祖母是一个非常刚毅的母亲,有着强烈的爱国情怀,她极力支持父亲参军和投身国防建设,希望父亲到部队好好锻炼。在欢送会上,祖母还代表参军入伍家属发了言,看着父亲胸前戴着大红花,别提有多么自豪和光荣。后来,她执意把父亲从家里一直送到
用于试点测试的国内首个5G基站日前在广州大学城开通.据了解.该基站是为迎接即将开幕的2017世界移动大会。广东移动联合设备厂商开展5G外场测试而开通。
采用文献资料法、访谈法、问卷调查法、统计分析等方法,对目前厦门市少儿竞技武术套路训练中存在的问题进行了深入系统的调查分析。结果表明,厦门市少儿竞技武术套路训练中存
我父亲韩伟被授予三枚一级勋章。其中1955年获得两枚。那枚最珍贵的一级八一勋章是1957年获得的。  从1985年到1988年,在总参谋部军务部工作的我,参加了人民解放军第二次授衔的准备工作。为了完成我军革命化、现代化、正规化建设这一重大步骤,中央军委部署三总部和军事科学院的有关部门,对第一次授勋、授衔进行了回顾,对第二次授衔进行了周密的计划和运筹。由于工作关系,我们这些参谋人员查阅了大量历史资料
有人做过这样的测试:测量8种苹果果皮和果肉中的黄酮含量,结果显示,果肉中的黄酮含量为15~605.6mg/kg,而果皮中的含量为834.2~2000.3mg/kg。此外,苹果中一半的膳食纤维都在果皮里,一个250克中等大小的苹果,不吃皮就少获得了3克左右的膳食纤维,而我们平时一天也才能吃到13克左右的膳食纤维,只有不到5%的人能达到25克的适宜摄入量。  同样,葡萄皮中的花青素含量也比果肉高一些,
婶婶楚青有时对朋友说:“其实我家的孩子是比较多的!”她说的这个“多”字,除了两个烈士子弟外,也包括我。我自幼跟随祖母生活。解放后,叔叔粟裕把祖母和我接到南京一起生活。从此,我对叔叔有了更深入的了解……  中央指示粟裕带兵攻打上海  叔叔与上海结缘,始于抗战后期。1945年初,中央有个指示,让粟裕带10万精兵攻打上海,并把张爱萍派到上海做内应,还把江苏省委改为中共中央直属上海局,准备发动武装起义,里
人们的恐惧有很大一部分是来自于对事物的未知,基因编辑技术引起的舆论风波便是如此。科技的进步让人类可以操作基因,其中一个很大的工程叫“基因驱动”——借助被誉为“基因剪刀”的CRISPR基因编辑技术,人为的将特定基因有偏向性地遗传给下一代的行为。  这种基因编辑技术用在人类婴儿的身上遭到了口诛笔伐,而在一个国际会议上有人提出“禁止释放携带基因驱动生物体”时,却遭到了反对。今年9月,英国《自然·生物技术
总理个人的基本色调是温文尔雅,和蔼可亲;但绝不缺少严厉。上至党和国家领导人,下到身边普通工作人员,