语音识别成长起来,并走向移动应用

来源 :计算机世界 | 被引量 : 0次 | 上传用户:fairboy2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  从台式机到移动设备再到更多应用,语音识别已经不再是满足小众需求的新鲜事物——而且还衍生出了一类新型的小工具。
  过去三十年里,语音识别是这样的:您能够和自己的计算机交谈,通常使用头戴式麦克风,使用微软Windows中未公开的语音识别应用软件,或者Nuance通信公司“龙自然语言”版的应用软件。如果您发音很清晰,那么屏幕上就会显示出单词,然后执行命令。
  今天,改进很大的语音识别技术得到了广泛应用,在过去两年中,它催生了一类新的消费系列产品:语音控制的个人助理。VoiceLabs公司为语音应用软件开发人员提供分析技术,该公司创始人之一Adam Marchick表示:“这是经过了30年的沉淀而一夜成名。它终于变得足够精确,足以能进行对话了。”
  和大多数技术一样,语音识别的发展也是逐步的。2017年8月,微软宣布,根据行业标准测试,其会话语音识别系统的单词识别准确度已经超过了专业人类转录员的识别准确度。在此类测试中,专业人员的平均错误率为5.9%,而微软系统达到了5.1%。
  微软技术研究员,也是该公司语音和语言部负责人黄学东说:“这就像梦想成真。1993年我们在微软开始语音识别时,错误率大约是80%。1982年,我在读研究生的时候开始研究语音识别技术,那时,我们面对的是孤立的单词,根本不敢想象软件能够像人那样识别出对话。”
  Nuance首席技术官Vlad Sejnoha说:“今天,如果您在一间安静的办公室里,清晰的用普通口音说话,那么语音识别准确率能接近100%。”
  这样的准确度意味着人们能更好的与自己的电话进行交谈,更轻松高效的与客户服务呼叫中心的机器人聊天,在家里和办公室里使用语音命令。
  逐渐累积的进步
  Sejnoha说,该技术能够达到目前的水平,也是一步步走过来的。Sejnoha说:“15到20年来,我们使用的主要技术是基于统计学的,特别是隐藏Markov模型。我们有各种各样的模型来预测这个片段是某个特定音素产生的可能性,或者某个单词应该合理的出现在某种上下文环境中。我们开发了各种变体,并且能够稳步进展。
  他补充说:“近年来,传统的统计方法已经被深度学习(神经网络)模型所取代,这些模型非常灵活,而且比以前更能推动系统的发展。结果在过去10年中,错误率平均每年下降20%。”他说,语音识别现在能够为更多的人提供服务,用在各种各样的环境中。Sejnoha举了一个语音识别仍然不能很好工作的例子,他说:“在鸡尾酒会上还是要喊。”
  Sejnoha预计每年20%的改善率仍然会继续下去,不仅越来越适应嘈杂的环境,而且还能适应很多特殊的情况。他指出:“理解多种语言越来越重要,在欧洲借助GPS地图,还必须做一些工作,比如理解德国司机所说的法语地名。普通话有很多外来词,其发音因人而异。”
  关键点
  随着每年20%改善率的累积,大厂商开始使用深度学习来制作自己的语音识别引擎。后来,他们越来越信任该技术,认为它足以支持新一类消费产品——个人助理,先是作为应用软件(例如,苹果的Siri和微软的Cortana),后来作为独立的设备(例如,基于Alexa服务的亚马逊的Echo,基于谷歌助理服务的谷歌Home,等)。
  这类系统的语音识别是在云中进行的。这些设备在收到“OK Google”类似的命令提醒后,开始收听,传送出语音数据。
  Marchick解释说:“设备非常薄,就像Unix终端一样。计算机在云中,它们会待命,听它们的名字,就是这样。”
  语音和视觉技术公司Sensory首席执行官Todd Mozer补充说:“长期以来,语音识别的重点一直放在计算机上,但在过去的5到10年间,重点转向了消费类技术。第一个关键事件是Steve Jobs发布了Siri,表明了对语音识别的支持。苹果无论做什么都会是消费类电子产品的典范。第二个关键事件是亚马逊发布基于Alexa的产品,例如Echo。”
  Marchick说:“当我们在一年前开始这项业务时,市场上只有亚马逊的Echo,以及几万台设备。很快Echo将面对7个竞争对手,预计今年年底会有三千三百万台设备投入使用。语音交互会大幅度攀升。此前,有三百人为这些设备制作语音应用程序。而一年后的现在,有一万六千人。”
  Marchick说,Echo的竞争对手包括谷歌Home,再加上未发布的苹果HomePod;運行微软Cortana的未发布的Harman/Kardon Invoke;还有三星Galaxy智能手机的三星Bixby;其中至少有两个是中文系统。
  扩展应用
  但事实证明,这些供应商通常会提供软件开发工具包,使其语音识别引擎能够被用来开发使用自然语言作为接口的应用程序。对话技术公司顾问Deborah Dahl说:“自然语言和语音识别令人兴奋之处在于这些工具包的开发。他们对其进行设置,以便普通开发人员都能够使用在线工具创建口语系统。这真的降低了难度,所以不需要成为自然语言专家便能够开发客户服务应用程序。”
  Sherif Mityas是达拉斯TGI星期五连锁餐厅的首席信息官,说他的公司能够在5个月内启动一个基于语音的接口应用程序,该应用程序是采用亚马逊Alexa工具包Lex开发的。他补充道,对于手机用户和亚马逊Echo用户,它用起来也是一样的,唯一的区别是手机用户通常四处走动,需要确定方向。
  Marchick说:“应用程序开发过程就像创建一个网页。您有很多服务可以使用,您编写代码,然后发布代码,最后进行测试。”
  Dahl指出,“如果您花几天的时间去适应GUI,那么这个过程会非常简单。最难的是,它们不会帮助您设计应用程序——如果您对结果没有一个清晰的概念,那么当您看到没有覆盖所有应该覆盖的用例时,您不得不回头去做大量的返工工作。”以一个比萨订购应用程序为例,“您必须想清楚所有需要由用户提供的东西:浇料、厚度、尺寸和酱汁,等等。您可以在几星期内自己完成,但是必须和订购系统的后端保持一致。”   Mityas说,TGI星期五餐厅应用软件的主要难点是怎样简化菜单选项。他说,菜单上有15个配菜,如果让Alexa去列出这些菜会很麻烦,但开发人员发现他们可以列出最受欢迎的三个配菜,然后让用户去选择更多的配菜。
  Dahl说:“在现实生活中,您不会去预测用户会说什么。用户总是出人意料,所以会有一段时间的调整。”比萨订购应用软件的用户“会问起面包棒。他们会要求您不要像上次那样没做熟。系统必须采集到这些,否则就会彻底失败。”
  为预测用户会说些什么,对话人工智能系统(例如,企业虚拟客服)提供商Next IT最先研究了企业与公众互动最有可能使用的词汇。
  Next IT总裁Tracy Malingo表示:“作为经验,当我们为了新客户而接触一个新商业领域时,我们希望有1万到2万次经过策划的对话,我们可以从中获取数据。这些可以是电话、聊天记录、推特馈送——我们将处理任何涉及企业和消费者之间来回交互的文本对话。”
  Mityas指出,使用语音交互比基于文本的交互效果更好,因为用户可以畅所欲言,建立起人工智能可以使用的情景。他补充说,文本交互往往只是孤立的问题。
  最后,Malingo说,训练虚拟客服的时间和培训人类客服的时间大致相同。她指出:“而虚拟客服一旦完成训练,它就永远不会休息,每天工作24小时,回答成千上万的问题。”
  Malingo解释说,虚拟客服的成本取决于应用程序和行业的复杂性。但是其成本比率通常是固定的,她说:“如果一个现场电话的成本是一美元,那么与现场客服进行网络文本聊天的成本是50美分,因为客服每次可以同时进行多個聊天。而虚拟客服的成本将是5美分。”
  Mityas可以为私有企业TGI星期五餐厅提供免费的数据,但他说,使用语音识别技术已经使在线用户的参与度提高了两倍,在不到一年的时间里,外卖的销量也翻了一倍。
  升级点
  Malingo说,虚拟客服的使用并不意味着所有的人类客服都会被取代。实际情况是,“升级点”(在这一点,致电者必须被转给现场客服)被抬高了。
  员工福利管理公司Alight解决方案公司技术总监Ibrahim Khoury对此表示同意,升级点是关键。Khoury说,通过引入自然语言客服来处理每年的招聘活动,公司能够把转给人类客服的对话减少94%。
  采用了虚拟客服后,Khoury补充说:“我们正在努力解决大批量的低价值问题,让客户快速提问,快速得到答案。Khoury说:“这为人类客服处理少量的高价值问题打开了大门,比如‘我失去了我的配偶’该怎么办?”
  但调整不会结束。如果系统能回答85%到90%的问题,您会很高兴。它在开始时可能会停留在60%左右。但总有10%的问题系统永远无法理解。”
  Malingo指出,与机器人交互的时间通常要少一些,因为闲聊少了。她补充说:“然而,这是令人愉快的,人们几乎每次都要感谢机器人。”
  至于实际的可靠性,Marchick说:“当您可以限制应用程序时,例如,只谈论披萨,那么语音识别的质量是惊人的。但是当您进行一般的对话时,您还没有把该技术完全理想化,因此,即使出现怪异的对话,您也不会误解它。如果您想在开会和记笔记的时候打开它,那真的很难,因为会议可能是关于任何主题的,而要想总结对话也真的很难。如果您在酒店房间里使用它来处理您想要的有限的操作——音乐、客房服务,或者电影,环境受到一定限制,它会工作得很好。”Dahl指出,识别引擎通常会为每个单词返回一个介于0和1之间的置信度值,程序员可以决定什么时候要求用户要求重说一遍。然而,怎样确定好的置信度是一种艺术,如果置信度模糊不清,会导致用户被接二连三的要求重说一遍,引起用户的反感。
  她说:“如果问用户,您说的是‘美国’还是‘USA’,这就会让用户反感。”
  并且,Dahl警告说,“如果设计考虑的太多,那就会没完没了,这包括:地区口音、儿童、恶意用户、隐私等等考虑因素。”
  然而,识别引擎的选择并不是重要的考虑因素。当被问及哪家供应商的产品更适合哪项工作时,Malingo说,“我们看不出他们之间的差异。”
  另一个关键点
  当普遍认为语音识别已经足够好的时候,2017年4月12日发生的一件事改变了人们的看法,当时,汉堡王(Burger King)播放了一则电视广告,想要欺骗任何正在收听广告的谷歌Home设备。
  在广告中,主持人说,“您正在收看的是一个15秒钟的汉堡王广告,遗憾的是我们没有足够的时间来解释Whopper三明治有什么样的新鲜食材。但我有个主意。那么,谷歌,Whopper汉堡是什么?“
  所有听到这个问题的谷歌Home设备,其回答都是背诵维基百科上Whopper汉堡页面的内容。
  一位不愿透露姓名的谷歌女发言人说,谷歌在当天阻止了这种回答。她说:“我们的主要目标是,谷歌Home在您需要的时候提供帮助,而不是在您不想要的时候帮助您。”
  同时,语音识别顾问Bill Meisel指出,如果您想要使用语音识别工具在计算机上撰写文本,那么,Windows语音识别和Dragon NaturallySpeaking仍然是不错的选择。他补充说:“这是律师和医生的专业领域——但如果您想在手机上口述笔记,Cortana会让您得偿所愿。”
  至于最终会怎样,黄指出,“PC让计算普及开来,而移动计算让PC普及开来。下一转变将是环境计算,那时,您不会被束缚在设备上。语音识别将是这种转变的核心所在。”
  Mityas对此表示同意。他说:“10年后,没有人会再使用应用软件。他们与设备交谈,使用键盘的日子很快就会过去。”
其他文献
2013年9月20日至22日,由南京大学历史系、中国欧洲学会、英国驻华大使馆、英国驻上海领事馆、上海外国语大学英国研究中心、北京外国语大学英国研究中心主办,由南京大学英国与英联邦研究中心承办的“中国英国史国际学术研討会”在南京召开。参加本次研讨会的有来自国内外二十余所高等院校和科研机构,以及学术期刊的80多名专家学者。会议共举行了9场学术报告会,就英国史、英帝国史、海洋大国与海洋战略以及其他世界历
11月1日,2018腾讯全球合作伙伴大会上,腾讯公司副总裁林松涛宣布正式发布原创短视频平台“yoo视频”。  据林松涛介绍称,yoo视频以人格化账号为主体,通过Vlog和Vstory两种不同的内容形态,展示有故事的人和有态度的价值观。Vlog是来源于生活,展示自己人格化的内容,而Vstory则是故事性的内容、高于生活的表达,如微短剧、微综艺。  有数据显示,88%的互联网用户会使用短视频社交,短视
20世纪60年代后半叶,英国政府实行收入政策,限制工人工资上涨,但并未取得预期效果。1967年英镑贬值,民众不满情绪加剧,罢工尤其是非官方罢工此起彼伏。1968年,研究英国工会状况的《多诺万报告》出炉。1969年,时任就业与生产部(DEP)大臣的芭芭拉·卡斯尔颁布名为《代替冲突》(In Place of Strife)的白皮书,希望在增强工会权利的同时对工会的罢工行为加以管制。该白皮书遭到了工会的
摘要 美惜甘是荷属东印度时期爪哇普遍设立的一种机构。但在巴达维亚华人社区里,它不仅仅是一个慈善机构,而且还是一个管理遗产税务的机构。在设立之初,美惜甘因其慈善功能得到了巴城华人的热烈欢迎,但随后却因其功能的复杂及因此带来的定位的不明确性而招致华人社会的反对。综而言之,巴城美惜甘与当地华人社会之间的关系,由于其自身的特殊性而变得相当微妙。  关键词 美惜甘,巴达维亚,华人社会  中图分类号 K3 文
[关键词]基层社会,县官群体,官制  [中图分类号]K23 [文献标识码]B [文章编号]0457-6241(2010)16-0071-02    官制历来是历史研究中的重头戏,地方官制则是官制不可或缺的一部分。中国两千年的古代社会实行高度集权的中央行政体制,它要求将地方的权力集中到中央,同时中央加强对地方的控制。因而地方官制设置的是否合理,运转的是否正常,不仅是国家行政机制得以运行的保证,同时也
编者按 在追寻“中国梦”,努力实现中华民族伟大复兴的进程中,科学把握西方主要国家的发展状况,从中汲取有益的经验和教训,是每一个历史学工作者的责任和义务。历史学博士研究生是我国史学发展的一支非常重要的力量,本刊一直以来非常重视对优秀博士生论文的选择和刊用,这组由南京大学历史系教授于文杰老师组织的博士生文章,敢于打破既定的历史叙述,从不同侧面对西方主要国家文化发展模式的问题进行了探讨。刘畅认为英国的政
AB团是Anti-Bolshevik的缩写,直译为反对布尔什维克,是段锡朋、郑异根据蒋介石、陈果夫指令,于1926年12月在江西南昌组建的反共团体,以破坏国共合作,排除江西中共党人和国民党左派,夺取国民党江西省党部大权为目标。1927年初,AB团夺得江西省党部大权,并成立江西省政府。AB团分子先后破坏吉安、南昌、九江等地党部,又与军队勾结杀害赣州总工会委员长、共产党人陈赞贤。同年4月2日,中共与国
网络罪犯一旦进入了企业网络,就会通过持续的横向活动而锁定并接管服务器,以获取里面的重要数据。然而,有调查却显示,2/3的IT主管并不了解防漏洞利用技术,因而使企业处于数据外泄的风险之中。  网络威胁正变得越来越复杂。网络和端点安全厂商Sophos的一项调查显示,在过去一年中,54%被调查企业受到过勒索攻击,受影响的企业平均损失约为13.3万美元,一半以上的威胁被交付于非恶意可执行文件。那么,企业该
随着数据库的发展和应用,作为新一代的分布式数据库,其架构与功能特性需要保证在与传统数据库全兼容的基础上,拥抱微服务与云计算框架。基于此,分布式数据库对于分布式交易与ACID必须保证与传统技术完全兼容。同时,在面向微服务应用开发与云计算基础架构时,新一代分布式数据库必须支持弹性扩张、资源隔离、多租户、可配置一致性、多模式(支持各类SQL协议)和集群内可配置容灾策略等一系列功能。  日前,在第十届中国
[摘要]1958年9月17日,戴高乐同时向艾森豪威尔和麦克米伦提交了一份备忘录,要求建立世界性的美英法三国理事会。由于担心其他北约国家和亚非国家的不利反应,美国拒绝了法国的要求。此后,法国走上了独立防务的道路。  [关键词]戴商乐,艾森豪威尔,麦克米伦,北约,美法关系  [中图分类号]D81 K7 [文献标识码]A [文章编号]0457-6241(2007)10-0057-07    1958