语音识别“在路上”

来源 :第一财经周刊 | 被引量 : 0次 | 上传用户：lichengjing626

【摘要】

：

【作者】

：

文姝琪

【出处】

：

第一财经周刊

【发表日期】

：

2012年27期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　“钢铁侠”Tony Stark有一位智能管家，人们看不见它，它却无所不知，是居家旅行、拯救世界的必备良物。
　　它满足了人类对于“语音识别”技术的终极幻想。你可以把这位智能管家想象成Siri的未来升级版，它不但能够完美执行指令，还能根据设备的工作情况甚至主人的心情提出建议。
　　下面回到现实。Siri眼下能做的最棒的事情，就是帮忙预订某个酒店房间—诸如此类。不过不用悲观，还有个好消息是，语音识别已经成为众多科技公司的优先发展计划。
　　2012年3月，一项能够即时语音翻译26种语言的技术被微软研究院推出。与其他语言翻译产品不同的是，这项技术除了翻译多种语言之外，输出的语音还可以模仿说话人的音色和音调，使它们听起来接近使用者的真实声音。当然了，现在它听上去还有些生硬，感情色彩还不够丰富。
　　这项技术的第一步仍然是语音识别，后者正被越来越广泛的应用在众多不同的领域。微软用它来翻译，在将语音进行识别之后，变成一项名为“跨语言的文语转换”（Cross-Language Text-to-Speech，简称TTS）的技术。使用者只需要预先录下几十分钟的母语作为训练语音。软件在进行识别、翻译之后，就可以模仿说话人的音调和音色将翻译好的、其他语种的文本说出来。
　　此前早已有苹果Siri，它一度是iPhone 4S手机用户的最大乐趣之一。另外在Android 4.1系统中，Google Now除了让用户实现语音搜索，还包含一个自动填充卡片的功能。当用户搜索了一个地点、天气或是航班时间，Google Now会自动建立一个卡片存储细节，供用户以后查阅。
　　人们对于语音识别的迷恋由来已久，甚至在计算机发明之前。早期的声码器，可以看作是语音识别技术的雏形。1920年代生产的“Radio Rex”玩具狗是眼下有据可查的最早的语音识别器，当这只狗听到自己的名字时，它就会从底座上弹出来，吓人一跳。
　　作为诸多后继的复杂应用的第一步，语音识别—让机器读懂你在说什么，迄今为止仍然是一个大工程。你甚至也可以把它视为众多语音类智能应用向前发展的绊脚石之一。
　　现在语音识别的主流技术，由数据统计模型和算法组成。如果把数据统计模型比喻成一个仓库的话，那么算法则是一只机械手臂，从仓库中“抓”出合适的数据进行匹配。算法包括了对数据存放位置的判断等行为规则。数据越多，模型也就越大。
　　再简单一点说，当你说了一句话之后，算法会从数据库中抓取可能最符合你意思的那句解释。因此模型中包含的数据越多，通常也就意味着识别能力越强。但问题来了。就像没有一个仓库可以存放世界上所有的货品一样，没有一个模型可以解释所有数据。人们可以说任何话，因此数据变化无穷。
　　所以你应该不难理解，以往一些初级的语音控制类的应用，比如导航、语音拨号等等，人们要启动服务必须按照产品手册的说明，完整地说出固定格式的句子，才能被机器所识别。在这些应用中，数据库是简单而又原始的，在识别过程中也没有太多算法可言，它们只是负责“搬运”。
　　包括Siri和微软TTS在内，语音识别被发展到了眼下的第二个阶段：它们可以通过一定的规则和算法，将那些事先没有包含在数据统计模型中的“话”也解释出来，并且足够简单。
　　要实现这一点，仍然必须要有一个基础的数据库。在微软的TTS技术中，那几十分钟的“训练”，也就成了一种搜集数据建立数据库的方式。建立数据库的好处在于，“它不能够保证你肯定对，但它能够保证最可能对，或者说可能最好的答案。”微软亚洲研究院语音组首席研究员和负责人宋謌平对《第一财经周刊》说。
　　当训练完成之后，语音识别就变成了一个排序过程。当一段语音被输入，模型会通过自己的算法，从数据库中寻找匹配度最大的那一句。各家公司不同的“算法”，以及建立起来的基础数据库，成了它们各自在语音识别上的核心技术。
　　一段话是谁说的并不重要，更重要的是它的文本识别率。按照宋謌平的说法，一般能达到90%以上的识别率，大部分的用户都可以接受。
　　要提高准确率，除了数据库和算法，另一个必须解决的问题就是在噪音环境中更准确地分辨出输入的语音。
　　眼下要解决噪音问题一般通过两种办法，一是在训练素材中包括噪音数据，让模型“记住”声音在不同环境下的差异，并在最终识别的时候，对噪音进行降噪处理；另外一种办法，则是识别同样噪声环境里的、没有经过降噪处理的语言。
　　在数据库有可能建立得比较大的情况下，搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法。但现实是，一般意义上的“噪音”太多。比如汽车的引擎、餐厅中的各种声音，本质上并不相同，但都会对说话人的语音输入造成干扰。对于手机而言，计算和存储能力都有限，建立庞大和复杂的模型并不现实，一般会直接使用降噪处理的办法。
　　早在1992年，一家名为Nuance的公司就看到了语音识别技术的商机。目前Nuance在美国已经开辟出两部分主要市场，包括咨询业务和医疗诊断记录的听写。2011财年，Nuance的营收共计13.18亿美元，其中产品销售及授权收入占比46%，产品的使用人数已有1600 万。
　　这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利。在美国昂贵的人工费用压力之下，包括美联航和大部分医院在内的机构，都开始选择语音听写引擎这样的识别设备，解决部分客户服务和书写病历的问题。
　　将默默埋头赚钱的Nuance推向前台的正是苹果。由于Siri使用了Nuance的语音识别引擎，这家公司开始获得越来越多的曝光。Siri曾在起步阶段使用过其他平台，但最终切换到了Nuance，不知这是否与Siri和Nuance同样出自斯坦福研究院有关。
　　曾有传言苹果与Nuance进行了几个月的接触，试图收购后者，但因其价值连城的专利，以及“在谈判时近乎于乔布斯级别难缠的CEO”，这场收购后来不了了之。苹果通过引入Nuance的语音识别，再将识别之后的信息与其他“知识和资讯类数据库”连接，在人机交互领域发起了一场革命。
　　2011年，通过云端访问Nuance的语音数据库的访问量达到了20亿次。眼下，它们也开始进入中国市场，最新版本的Siri将提供包括普通话、广东话和台湾地区国语的识别。不过中文与英文的识别引擎完全不同，需要重新开发。
　　在中国，还没有形成大规模的语音识别应用市场。国内语音市场占有60%以上份额的是科大讯飞，主要营收也只是来自于语音合成技术。它只是让电脑“念”出文本，在电信公司和银行的呼叫中心里较为常用。
　　微软创始人比尔·盖茨曾在2008年预测，五年之内互联网的搜索大部分将通过语音完成。现在看来，他或许乐观了一些。即使语音识别技术已经能够适于应用，真正的人机交互还有待于语音识别的更深层—语义识别技术的发展。
　　如果从字面上解释，语义识别的意义在于能让机器真正明白信息的含义。当机器听到一个名为“意大利菜”的关键词时，技术优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅，但语义识别则意味着，它还可能明白意大利菜会有什么样的口感、或者探知餐厅的氛围。
　　语义识别的终极梦想是让机器完全辨知人类说话的语义和情绪，就像“钢铁侠”的那位智能助手一样。
　　与发展相对迅速的语音识别不同，现有的语义识别仍然处于基础阶段，是一种机械的识别过程。“这一类的技术基本上还是填空法。”宋謌平说。当机器听到语音，进行识别之后，会从“语义数据库”中搜索出与其相匹配的关键词，与人的语义理解还有很大区别。
　　不过在一些垂直领域，语义识别已经获得了一定程度的发展和应用。中华英才网的控股公司、美国最大的人力资源网站Monster，最近开始在中国市场推出一种名为6Sense的语义搜索专利技术。它能将求职者的工作经历、技能、教育背景和所在地区，与目标职位匹配起来，再对他们进行分析、评级和排序，从而提高HR筛选简历的效率。在人力资源领域，“甲骨文”意味着那家国际知名的企业软件公司，而不是中国古代文字。如果仅仅是围绕在一个特定领域内，系统判断和识别的难度要小得多。
　　从长远来看，语义识别目前还有很多尚未突破的难点。最大的障碍事关情感，机器还没有办法理解人类的情感，它们只能通过语音信号的声学变化去捕捉人类的情绪，比如频率和时长这样的参数；此外，因为语言本身的模糊性，识别过程中的关键词抽取也经常出现不准确的现象。
　　小i机器人的创立者袁辉说，语义识别的下一步发展，需要长期的、系统的平台去处理每天进来的海量知识和信息，经过长期的集聚，形成工程化的产品，最后才能对知识进行筛选，甚至能够学习新的知识点。
　　看起来，“云”或许会是一个解决办法。因为云服务器可以容纳规模足够大的模型。如果能有一种算法，使这种模型具有学习能力，就可以将用户的语义在云端服务器中进行分析，再借助网络将指令和文本回传。
　　尽管可以用语音操作的手机、PC甚至汽车都离我们不太远了，但要让这项技术真正达到善解人意的程度，还需要很长一段时间。
　　还是先慢慢折腾Siri吧。

其他文献

Nexus7制造者

2011年12月的某天，沈振来在台北的办公室里接到来自谷歌总部的电话，对方向他发出了邀请：在CES上见上一面，却没透露更多线索。几天之后，媒体从谷歌董事长埃里克·施密特（Eric Schmidt）那里听到了一个惊人计划，谷歌要在半年后推出一款自有品牌的平板电脑，以向苹果发起真正残酷的竞争。　　沈和他的团队做好了一些准备，当他们和谷歌的人坐到一起的时候，沈带着一台原本打算在今年4月推出的7寸平板电脑

期刊

本田中国复苏

在经历了2011年全年销量负增长之后，本田终于在今年上半年扭转了这一颓势。　　7月初，本田中国披露了2012年上半年的销售数据，今年1月至6月，本田在华共销售32.7万辆汽车，较去年同比提升20.5%。从今年2月起，本田在华汽车销量开始递增，而5月、6月的单月销量同比增长均超过了80%。2011年是本田进入中国的第13个年头，这家曾在中国市场上急速扩张的日本汽车制造商，却在这一年迎来沉重的打击。受

期刊

一次面向未来的收购

为了海外市场和数字营销业务，日本电通集团进行了公司历史上最大的一笔收购。伦敦当地时间7月12日，电通集团（Dentsu Group）公开宣布将以31.64亿英镑的价格收购英国传播巨头安吉斯集团（Aegis Group）。　　这项收购酝酿已久。电通集团总裁兼全球首席执行官石井直在2009年7月便提出“Dentsu Innovation 2013”的中期管理计划，目标就是锁定在全球海外扩张和数字营销业

期刊

“爱回收”加速流转

“Vintage”（旧货、复古）的确已经成为城市里一种流行的消费风潮，可是不包括电子产品。你可以穿一件1980年代的天鹅绒西服，用一张计划经济时代的实木办公椅，但又有谁愿意用一款哪怕是一年前发售的旧手机呢？　　最方便、便捷地处理掉这些过时的电子产品，成为“爱回收”网站要做的事。“现在国内电子产品的消费量非常大，B2C的电子商务也很热闹，大家不断买东西的结果就是必定有很多闲置商品会堆积起来。”这家网

期刊

Hotmail的告别式

现在，一切关于Hotmail的入门、进阶和高级教程都没有用了。　　7月31日，美国当地时间上午8点，习惯于登录Hotmail的用户发现自己被转到了一个新的页面上，Outlook上线了。　　但直到下午，Sabeer Bhatia才知道这个消息。他已经在自己硅谷山景城的办公室里工作了将近一天时间。“我做的第一件事是打开了Outlook.com，并且用原先的Hotmail ID登录。”他在接受《第一财经

期刊

托业考试(TOEIC):征战人才市场的利器

2012年，中国约有680万名高校毕业生涌入就业市场，毕业生数量再创新高。无论是应聘跨国公司还是本国企业，寻找全职工作对于当今的毕业生而言都是不小的挑战。这不仅为求职者催生了严峻的竞争环境，也令他们倍感焦虑。　　当前全球市场竞争激烈，全球职场对多语言（multilingual）人才的需求激增。鉴此，相比以往，更多职业要求英语技能，其中包括教育、电子、能源、金融、政府、医疗、制造及交通运输等行业。

期刊

标致雪铁龙法国关厂

当工厂每个月亏损1亿多欧元时，标致雪铁龙集团选择了面对员工的怒火，而非继续往亏损的漩涡里扔钱。　　7月12日，标致雪铁龙宣布，将关闭位于巴黎北郊的奥奈工厂（Aulnay）。该厂是该公司在法国最大的装配厂，拥有3600名员工，主要生产雪铁龙C3车型。同时，标致雪铁龙CEO瓦兰还宣布将裁减法国的员工，人数为8000人，比去年宣布的裁员计划增加了3000人。　　这是法国近20年来第一家被关闭的整车厂，引

期刊

油田里的污水生意

在国内，几乎每个油田都会存有一笔“隐患资金”。这笔资金的主要用途就是支付当地环保部门的罚单，而何文意创立的污水处理公司安洁士正是瞄准了其中蕴藏的商业机会。　　作为油田最大污染源的作业废水，在国内的油田逐渐进入三次采油阶段之后，它的处理问题比原来更加棘手—在此之前，污水处理只需要解决油和水的分离就行了，但三次采油需要注入高分子的聚合物，原有的技术无法分解废水中的添加剂。　　这种三次石油开采产生的高难

期刊

限价中的“地王”

开发商从不会担心热门房产项目会销售不畅，所以它们会高价拿地，与开发商们同样按捺不住的是地方政府。在沉寂了整个上半年之后，北京又现地王。　　7月10日的北京土地储备中心交易大厅里，万科、龙湖、中赫、招商地产等10家房地产公司，在争抢海淀区一块汇聚了中关村三小、人大附中等学区资源的住宅用地—万柳地块，万柳还是传统的高档社区聚集地，离地块最近的万城华府小区，二手房均价已经超过8万元/平方米。　　经过了1

期刊

把读者变成观众

如何将CNN网站上的一篇600字的文字报道变为视频？　　Wibbitz可以轻易做到。Wibbitz是由两名以色列年轻人Zohar Dayan和Yotam Cohen创造的可以将文字自动转换为视频的在线程序。而且他们由此开始了在美国的创业。　　现在，我们再将这段关于歌手Adele的视频转换为文字：你可以听到Adele获得六项格莱美提名的介绍同时欣赏她的照片和她唱《Rolling in the Dee

期刊

语音识别“在路上”

与本文相关的学术论文