除了做数学题,人工智能还能改作文了

来源 :第一财经周刊 | 被引量 : 0次 | 上传用户:hardstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  2017年12月,浙江外国语学院国际学院,来自俄罗斯、韩国、赞比亚等6个国家的11位外国留学生各自完成了一篇题为《我的爱好》的中文作文。最终,对于其中一篇不到200字的文章,“老师”圈出了8处语法和用词错误,比如它指出了“会教给外国人学习中文”中的“会教给”有语序错误,应改为“教会”—整个批改时间只用了几十秒。
  没错,这篇作文的批改工作是由一位特殊的老师—阿里巴巴的人工智能(AI)系统完成的,这是为了测试系统中的自然语言处理能力而做的一次尝试。
  或许你还记得2017年6月,人工智能系统参加过中国的高考(详情请参见2017年6月19日刊《机器人考生来了,但它可能更想当老师》),半年后,它不仅已从“考生”升级到了“老师”,还挑战了对于计算机系统来说更难处理的作文—要知道,此前的人工智能解答的可都是数学题,即使如此,一旦遇到文字过多的题目就很容易读不懂。
  在图像识别、声音识别这两个领域,AI技术已经发展得比较成熟了。系统处理图像和声音的错误率基本低于5%,这样的错误率代表着机器在这方面的能力已经可以超越人类。而此次AI批阅中文作文,则意味着AI对于人类语言的处理也开始变得越来越精准。
  据阿里巴巴的相关工程师介绍,AI系统阅卷的第一步即扫描试卷,随后将扫描图像转化为文字显示在电脑上,接下来AI系统会对中文语言部分作出处理,采用代表不同意义的符号在试卷内容上圈出多词、缺词、错词和词序等错误。
  此前,阿里巴巴的AI系统已经学习了几十万字的中文语言,通过扫描仪读取试卷信息,利用文本识别技术将信息转换成文本,之后启动自然语言处理算法分析,并识别出错位类型和位置,最后批注在试卷上。
  这其中包括手写文字图像识别转化、识别用词以及语法错误等步骤。针对第一步手写文字的图像转化,阿里巴巴团队使用的文本识别方式是光学字符(OCR)识别技术。这并非新兴技术。早在1960年代,关于字符识别的研究就开始了。不过目前识别难度依旧存在。因为每个人手写的文字都各不相同,有的人写字很潦草,而有的人书写风格自成一体,甚至有些手写字连人类都很难识别出来,对于机器来说,要穷尽各种各样的个性化字体是很难的。
  批阅的第二步是让机器理解语言,即语义分析。人类的语言非常复杂,有时候文字传达的并不是字面意思本身,一句话背后还可能隐藏了高兴、愤怒、惊喜这样的情感,而有时语言背后还有专业领域,比方说天体物理、量子物理,很多表述是在一个完整的知识体系中的表述。“所以如何让计算机理解一个多样化的人类世界的语言,要做到正确识别它,正确回应它,还需要进一步优化。”阿里巴巴iDST-NLP團队的自然语言基础技术高级算法专家李林琳对《第一财经周刊》说。
  阿里巴巴iDST-NLP团队负责人、自然语言处理首席科学家司罗在接受媒体采访时也认为,中文语法诊断的挑战性就在于中文语言知识丰富、语法多样,而人在判断一句话是否有错误时,会用到长期积累的知识体系,比如一句话是否通顺、两个词是否可以搭配、语义上是否成立等。相比之下,机器目前接受的训练数据有限,要达到人类水准还是有很大的差距。这或许也是为什么“AI老师”如今只能批改词句相对简单的留学生作文的原因。
  实际上,在阿里巴巴的AI系统批改作文之前,微软的人工智能语音助手“小冰”已在2016年尝试过写作文,甚至还在2017年出版了诗集。
  “小冰”的写诗能力基于对1920年后519位现代诗人创作的上千首诗的学习,其训练次数达到1万次,一次学习时间大约是0.6分钟。据“小冰”全球项目负责人李笛介绍,“小冰”已具备包括文本、语音、图像、视频和全时语音感官等在内的完整的人工智能感官系统,以及知识图谱,所以在经过数次迭代后,它已拥有人工智能创作者所需要的特征。
  但不同于能被证明的命题或能被推论的定理,人工智能系统目前还无法像人一样自主地联想,而且,文学创作会调动写作者的经历、追忆、愿景等元素,这些在AI创作的作品中是无法体现出来的—正如AI批改作文时遇到的问题。但抛开创意性的部分,语言毕竟有一定规律可循,而这是系统可以掌握的。
  阿里巴巴的AI系统也接受了语义理解的训练,其学习资料大部分来自于阿里巴巴各大事业部积累的数据。
  比如最主要的电商平台。一个电商平台会积累大量商家和消费者端的数据—商品、品牌以及型号数据,以及用户在平台产生的购买行为数据。例如,用户在购买了一个单反相机后又购买了一个镜头,那么平台就会产生一种数据之间的逻辑:单反相机和镜头之间有某种属性的关系。在一定的处理和标记下,这些都可以作为AI系统平常的学习素材。
  当然,对于技术解决方案来说,数据的获取仅仅是开端,要把这部分数据利用起来还需要技术团队做好“标注”工作。目前很多公司会采用人工标注手段。李林琳认为,对训练数据做全面的整体标注还是需要寻找专业人士甚至是语言学家,但这种方式会带来很大的成本和较长的周期。因此,阿里巴巴团队会尽量减少全人工标注的数据量,采用一种更高效和经济的方式—从海量的用户行为日志中挖掘半标注数据。
  还是以电商平台为例。比如用户在淘宝等平台上搜索的关键字是“三生三世十里桃花手链”,而用户实际点击的商品的标题是“三生三世十里桃花杨幂同款手链”,其中重叠字符串“三生三世十里桃花”就很可能成为AI系统掌握的一个新概念。也就是说,通过海量的用户行为数据,自动生成了机器学习模型依赖的数据。
  这也显示出AI提高文本识别精确率后的商用场景。在阿里巴巴集团内部,通过利用这种技术识别错别字或文字缺漏,可以优化电商平台的搜索体验。很多电商用户在搜索产品时经常会打错别字,还会出现读音相近带来的错误,“举个例子,比如二年醇常会被说成二娘醇,我们的语法诊断纠错技术可以对这种错别字做识别。”李林琳说。
  由此,它还可以扩展到应用范围更广的客户服务领域。由于电商和O2O平台的发展,很多公司对客服人员的需求不断加大,但与此同时它们却长期面临客服人员的缺口。“如果有一个可以精准理解人类语言的工具帮助企业减轻客户服务负担,对于企业来说,他们肯定有很强的采购意愿。”李林琳说。目前市场上已经有了小i机器人、智齿科技、网易七鱼这些产品,它们背后都采用了自然语言技术。
  当然,在李林琳的眼中,经过不断进化的“AI老师”,另一个目标是能走入教育市场,甚至有一天进入媒体及出版行业,成为我们身边的“校对老师”—相比创意性写作,这可能是人工智能在该领域更切实地应 用。
其他文献
CES(国际消费电子展)已俨然变成车展—这个现象并不新鲜了,不过即使是车展,2018年CES上的场景也不是你想象中的那种传统“车展”。  知名的汽车公司在此次CES上并不活跃,通用、大众、宝马等汽车厂商都没有参加。而参与的汽车公司中,比如本田、现代,也缺乏亮眼的新车发布,更多是概念或“愿景”的展现。不过,拉斯维加斯会展中心的北馆,也就是人们所熟知的汽车区,依然热闹—主角则变成了汽车零部件供应商。 
期刊
CNBC和多家美国媒体的消息称,云存储服务商Dropbox已秘密提交公开上市申请。  根据CNBC对监管文件的分析,Dropbox现在的估值在66亿到85亿美元。这远远低于其在2014年的高点。当时Dropbox完成了迄今最新的一轮融资,估值达到100亿美元。  成立于2007年的Dropbox是硅谷最知名的独角兽之一,其主要的服务是提供基于云端的文件共享和存储解决方案。截至目前,Dropbox累
期刊
简单来说,扎克伯格打算让Facebook更关注朋友和家人,突出显示这部分内容,产生有价值(meaningful)的互动,而减少来自品牌和媒体的图片、视频及产品信息。投资者可并不喜欢这一在全站范围内实施的变革,Facebook的股价下滑近5%。  2018年刚一开始,Facebook就引起了不少关注。最初是扎克伯格自2009年就开始的每年一次的对外宣言,显示出十足的决心和责任感,如今,这看上去倒像是
期刊
前段时间苹果公开承认对老款手机的电池做了手脚,很多人都对这个做法非常不满。这个事件会对苹果有什么影响?  —Steve  “新版iPhone发布,库克又要偷偷按下办公桌上能使旧iPhone变慢的小按钮了”—这句玩笑话,没想到在上个月成真了。  苹果公司2017年12月公开承认,为防止老款手机因电池衰退而可能导致的突然关机,故意降低了老款iPhone的运行速度。iPhone用户对此十分不满,全球各地
期刊
C=CBNweekly R=若方国瑜  距离2016年9月与喜达屋酒店集团宣布合并刚过一年,万豪国际集团在2017年11月7日的财报电话会议上表示,计划削减表现不佳的喜来登酒店超过6000间客房,2018年甚至要进一步放弃4000间客房。2017年8月,万豪宣布与阿里巴巴成立合资公司,尝试打通双方会员体系的同时设计“爆款”酒店产品。在市场上保持活跃的万豪目前已经成为全球最大的酒店集团,最近万豪正在
期刊
1月9日,2018年CES(国际消费电子展)开幕当天,举办地拉斯维加斯罕见地下了大雨。从威尼斯人酒店前往拉斯维加斯会展中心(LVCC)原本只需要10分钟,那天却要1小时,酒店门口的摆渡巴士和出租车扬招点也排起了长队。  这打乱了Stephen的计划,他原想10点前赶到LVCC,以便上午拜访5家供应商的展位,但此时他只能一边刷新Google地图的实时路况,一边修改精确到10分钟的行程安排。  Ste
期刊
消费是微观层面最能直接反映城市发展水平和活力的要素之一。在中国的城市体系中,一些县级城市的经济发展状态和商业活力甚至能超越行政级别更高的地级城市,反映出极强的城市活跃度。  “知城·县级城市消费力指数”想要做的是:从消费的角度审视中国县级城市的发育现状和上升潜力。消费力最强的Top 20县级城市  在这个指数中,第一财经·新一线城市研究所与京东数据研究院合作,以2017年“京东帮”家电下乡服务平台
期刊
创建一支成功的团队,不仅要找到一群拥有合适专业技能组合的人。在采访500多位企业高管的过程中,我询问了他们培养团队合作意识的艺术。他们的见解可以帮助你为创建高效团队奠定基础,从而让大家在相互信任和尊重的氛围中开展沟通、合作和创新。  制定清晰的计划 在跟着爸爸开始一场长途旅行前,小孩子往往会问一个问题:“我们去哪儿?怎么去?”公司领导者也应该向员工说明这个问题的答案,告诉大家公司的目标是什么、实现
期刊
这几年,女朋友们除了集体慢慢变老,更容易同步的是开始牢骚满腹。十有八九,要在电话里絮絮叨叨一番。结了婚的女人,很容易就被面前那些小破事阻挡视线。这一点几乎是毋庸置疑的。柳芳芳很早就看透了这一点。她可不想跟什么妯娌、婆婆之类的人争短长,这是浪费生命。自己有广阔作为,婆婆妈妈的事完全不够资格耗散精力。  怎么说呢,也算她基本做到了。因为没有什么来往,所以没有什么是非。保持一种偏生疏的客气,就省了很多不
期刊
在eBay中国研发中心,董妍妍一直都在跟大数据打交道。  為了支持产品部门的研发,董妍妍需要带领团队收集、分析用户数据,发现问题并提出解决方案。每当eBay有新功能上线,她还要通过数据来分析这个功能的预期效果。在董妍妍看来,产品经理相当于一座桥梁,连接着用户与研发团队。  “用户的需求就像讲故事,我们的任务是在听完故事、拿到需求之后把它分解成不同的小任务。”董妍妍面对的初始数据通常是庞杂而没有逻辑
期刊