论文部分内容阅读
“钢铁侠”Tony Stark有一位智能管家,人们看不见它,它却无所不知,是居家旅行、拯救世界的必备良 物。
它满足了人类对于“语音识别”技术的终极幻想。你可以把这位智能管家想象成Siri的未来升级版,它不但能够完美执行指令,还能根据设备的工作情况甚至主人的心情提出建议。
下面回到现实。Siri眼下能做的最棒的事情,就是帮忙预订某个酒店房间—诸如此类。不过不用悲观,还有个好消息是,语音识别已经成为众多科技公司的优先发展计划。
2012年3月,一项能够即时语音翻译26种语言的技术被微软研究院推出。与其他语言翻译产品不同的是,这项技术除了翻译多种语言之外,输出的语音还可以模仿说话人的音色和音调,使它们听起来接近使用者的真实声音。当然了,现在它听上去还有些生硬,感情色彩还不够丰富。
这项技术的第一步仍然是语音识别,后者正被越来越广泛的应用在众多不同的领域。微软用它来翻译,在将语音进行识别之后,变成一项名为“跨语言的文语转换”(Cross-Language Text-to-Speech,简称TTS)的技术。使用者只需要预先录下几十分钟的母语作为训练语音。软件在进行识别、翻译之后,就可以模仿说话人的音调和音色将翻译好的、其他语种的文本说出 来。
此前早已有苹果Siri,它一度是iPhone 4S手机用户的最大乐趣之一。另外在Android 4.1系统中,Google Now除了让用户实现语音搜索,还包含一个自动填充卡片的功能。当用户搜索了一个地点、天气或是航班时间,Google Now会自动建立一个卡片存储细节,供用户以后查阅。
人们对于语音识别的迷恋由来已久,甚至在计算机发明之前。早期的声码器,可以看作是语音识别技术的雏形。1920年代生产的“Radio Rex”玩具狗是眼下有据可查的最早的语音识别器,当这只狗听到自己的名字时,它就会从底座上弹出来,吓人一跳。
作为诸多后继的复杂应用的第一步,语音识别—让机器读懂你在说什么,迄今为止仍然是一个大工程。你甚至也可以把它视为众多语音类智能应用向前发展的绊脚石之一。
现在语音识别的主流技术,由数据统计模型和算法组成。如果把数据统计模型比喻成一个仓库的话,那么算法则是一只机械手臂,从仓库中“抓”出合适的数据进行匹配。算法包括了对数据存放位置的判断等行为规则。数据越多,模型也就越大。
再简单一点说,当你说了一句话之后,算法会从数据库中抓取可能最符合你意思的那句解释。因此模型中包含的数据越多,通常也就意味着识别能力越强。但问题来了。就像没有一个仓库可以存放世界上所有的货品一样,没有一个模型可以解释所有数据。人们可以说任何话,因此数据变化无穷。
所以你应该不难理解,以往一些初级的语音控制类的应用,比如导航、语音拨号等等,人们要启动服务必须按照产品手册的说明,完整地说出固定格式的句子,才能被机器所识别。在这些应用中,数据库是简单而又原始的,在识别过程中也没有太多算法可言,它们只是负责“搬运”。
包括Siri和微软TTS在内,语音识别被发展到了眼下的第二个阶段:它们可以通过一定的规则和算法,将那些事先没有包含在数据统计模型中的“话”也解释出来,并且足够简单。
要实现这一点,仍然必须要有一个基础的数据库。在微软的TTS技术中,那几十分钟的“训练”,也就成了一种搜集数据建立数据库的方式。建立数据库的好处在于,“它不能够保证你肯定对,但它能够保证最可能对,或者说可能最好的答案。”微软亚洲研究院语音组首席研究员和负责人宋謌平对《第一财经周刊》说。
当训练完成之后,语音识别就变成了一个排序过程。当一段语音被输入,模型会通过自己的算法,从数据库中寻找匹配度最大的那一句。各家公司不同的“算法”,以及建立起来的基础数据库,成了它们各自在语音识别上的核心技术。
一段话是谁说的并不重要,更重要的是它的文本识别率。按照宋謌平的说法,一般能达到90%以上的识别率,大部分的用户都可以接受。
要提高准确率,除了数据库和算法,另一个必须解决的问题就是在噪音环境中更准确地分辨出输入的语 音。
眼下要解决噪音问题一般通过两种办法,一是在训练素材中包括噪音数据,让模型“记住”声音在不同环境下的差异,并在最终识别的时候,对噪音进行降噪处理;另外一种办法,则是识别同样噪声环境里的、没有经过降噪处理的语言。
在数据库有可能建立得比较大的情况下,搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法。但现实是,一般意义上的“噪音”太多。比如汽车的引擎、餐厅中的各种声音,本质上并不相同,但都会对说话人的语音输入造成干扰。对于手机而言,计算和存储能力都有限,建立庞大和复杂的模型并不现实,一般会直接使用降噪处理的办法。
早在1992年,一家名为Nuance的公司就看到了语音识别技术的商机。目前Nuance在美国已经开辟出两部分主要市场,包括咨询业务和医疗诊断记录的听写。2011财年,Nuance的营收共计13.18亿美元,其中产品销售及授权收入占比46%,产品的使用人数已有1600 万。
这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利。在美国昂贵的人工费用压力之下,包括美联航和大部分医院在内的机构,都开始选择语音听写引擎这样的识别设备,解决部分客户服务和书写病历的问题。
将默默埋头赚钱的Nuance推向前台的正是苹果。由于Siri使用了Nuance的语音识别引擎,这家公司开始获得越来越多的曝光。Siri曾在起步阶段使用过其他平台,但最终切换到了Nuance,不知这是否与Siri和Nuance同样出自斯坦福研究院有关。
曾有传言苹果与Nuance进行了几个月的接触,试图收购后者,但因其价值连城的专利,以及“在谈判时近乎于乔布斯级别难缠的CEO”,这场收购后来不了了之。苹果通过引入Nuance的语音识别,再将识别之后的信息与其他“知识和资讯类数据库”连接,在人机交互领域发起了一场革命。
2011年,通过云端访问Nuance的语音数据库的访问量达到了20亿次。眼下,它们也开始进入中国市场,最新版本的Siri将提供包括普通话、广东话和台湾地区国语的识别。不过中文与英文的识别引擎完全不同,需要重新开发。
在中国,还没有形成大规模的语音识别应用市场。国内语音市场占有60%以上份额的是科大讯飞,主要营收也只是来自于语音合成技术。它只是让电脑“念”出文本,在电信公司和银行的呼叫中心里较为常用。
微软创始人比尔·盖茨曾在2008年预测,五年之内互联网的搜索大部分将通过语音完成。现在看来,他或许乐观了一些。即使语音识别技术已经能够适于应用,真正的人机交互还有待于语音识别的更深层—语义识别技术的发展。
如果从字面上解释,语义识别的意义在于能让机器真正明白信息的含义。当机器听到一个名为“意大利菜”的关键词时,技术优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅,但语义识别则意味着,它还可能明白意大利菜会有什么样的口感、或者探知餐厅的氛围。
语义识别的终极梦想是让机器完全辨知人类说话的语义和情绪,就像“钢铁侠”的那位智能助手一样。
与发展相对迅速的语音识别不同,现有的语义识别仍然处于基础阶段,是一种机械的识别过程。“这一类的技术基本上还是填空法。”宋謌平说。当机器听到语音,进行识别之后,会从“语义数据库”中搜索出与其相匹配的关键词,与人的语义理解还有很大区别。
不过在一些垂直领域,语义识别已经获得了一定程度的发展和应用。中华英才网的控股公司、美国最大的人力资源网站Monster,最近开始在中国市场推出一种名为6Sense的语义搜索专利技术。它能将求职者的工作经历、技能、教育背景和所在地区,与目标职位匹配起来,再对他们进行分析、评级和排序,从而提高HR筛选简历的效率。在人力资源领域,“甲骨文”意味着那家国际知名的企业软件公司,而不是中国古代文字。如果仅仅是围绕在一个特定领域内,系统判断和识别的难度要小得多。
从长远来看,语义识别目前还有很多尚未突破的难点。最大的障碍事关情感,机器还没有办法理解人类的情感,它们只能通过语音信号的声学变化去捕捉人类的情绪,比如频率和时长这样的参数;此外,因为语言本身的模糊性,识别过程中的关键词抽取也经常出现不准确的现象。
小i机器人的创立者袁辉说,语义识别的下一步发展,需要长期的、系统的平台去处理每天进来的海量知识和信息,经过长期的集聚,形成工程化的产品,最后才能对知识进行筛选,甚至能够学习新的知识点。
看起来,“云”或许会是一个解决办法。因为云服务器可以容纳规模足够大的模型。如果能有一种算法,使这种模型具有学习能力,就可以将用户的语义在云端服务器中进行分析,再借助网络将指令和文本回传。
尽管可以用语音操作的手机、PC甚至汽车都离我们不太远了,但要让这项技术真正达到善解人意的程度,还需要很长一段时间。
还是先慢慢折腾Siri吧。
它满足了人类对于“语音识别”技术的终极幻想。你可以把这位智能管家想象成Siri的未来升级版,它不但能够完美执行指令,还能根据设备的工作情况甚至主人的心情提出建议。
下面回到现实。Siri眼下能做的最棒的事情,就是帮忙预订某个酒店房间—诸如此类。不过不用悲观,还有个好消息是,语音识别已经成为众多科技公司的优先发展计划。
2012年3月,一项能够即时语音翻译26种语言的技术被微软研究院推出。与其他语言翻译产品不同的是,这项技术除了翻译多种语言之外,输出的语音还可以模仿说话人的音色和音调,使它们听起来接近使用者的真实声音。当然了,现在它听上去还有些生硬,感情色彩还不够丰富。
这项技术的第一步仍然是语音识别,后者正被越来越广泛的应用在众多不同的领域。微软用它来翻译,在将语音进行识别之后,变成一项名为“跨语言的文语转换”(Cross-Language Text-to-Speech,简称TTS)的技术。使用者只需要预先录下几十分钟的母语作为训练语音。软件在进行识别、翻译之后,就可以模仿说话人的音调和音色将翻译好的、其他语种的文本说出 来。
此前早已有苹果Siri,它一度是iPhone 4S手机用户的最大乐趣之一。另外在Android 4.1系统中,Google Now除了让用户实现语音搜索,还包含一个自动填充卡片的功能。当用户搜索了一个地点、天气或是航班时间,Google Now会自动建立一个卡片存储细节,供用户以后查阅。
人们对于语音识别的迷恋由来已久,甚至在计算机发明之前。早期的声码器,可以看作是语音识别技术的雏形。1920年代生产的“Radio Rex”玩具狗是眼下有据可查的最早的语音识别器,当这只狗听到自己的名字时,它就会从底座上弹出来,吓人一跳。
作为诸多后继的复杂应用的第一步,语音识别—让机器读懂你在说什么,迄今为止仍然是一个大工程。你甚至也可以把它视为众多语音类智能应用向前发展的绊脚石之一。
现在语音识别的主流技术,由数据统计模型和算法组成。如果把数据统计模型比喻成一个仓库的话,那么算法则是一只机械手臂,从仓库中“抓”出合适的数据进行匹配。算法包括了对数据存放位置的判断等行为规则。数据越多,模型也就越大。
再简单一点说,当你说了一句话之后,算法会从数据库中抓取可能最符合你意思的那句解释。因此模型中包含的数据越多,通常也就意味着识别能力越强。但问题来了。就像没有一个仓库可以存放世界上所有的货品一样,没有一个模型可以解释所有数据。人们可以说任何话,因此数据变化无穷。
所以你应该不难理解,以往一些初级的语音控制类的应用,比如导航、语音拨号等等,人们要启动服务必须按照产品手册的说明,完整地说出固定格式的句子,才能被机器所识别。在这些应用中,数据库是简单而又原始的,在识别过程中也没有太多算法可言,它们只是负责“搬运”。
包括Siri和微软TTS在内,语音识别被发展到了眼下的第二个阶段:它们可以通过一定的规则和算法,将那些事先没有包含在数据统计模型中的“话”也解释出来,并且足够简单。
要实现这一点,仍然必须要有一个基础的数据库。在微软的TTS技术中,那几十分钟的“训练”,也就成了一种搜集数据建立数据库的方式。建立数据库的好处在于,“它不能够保证你肯定对,但它能够保证最可能对,或者说可能最好的答案。”微软亚洲研究院语音组首席研究员和负责人宋謌平对《第一财经周刊》说。
当训练完成之后,语音识别就变成了一个排序过程。当一段语音被输入,模型会通过自己的算法,从数据库中寻找匹配度最大的那一句。各家公司不同的“算法”,以及建立起来的基础数据库,成了它们各自在语音识别上的核心技术。
一段话是谁说的并不重要,更重要的是它的文本识别率。按照宋謌平的说法,一般能达到90%以上的识别率,大部分的用户都可以接受。
要提高准确率,除了数据库和算法,另一个必须解决的问题就是在噪音环境中更准确地分辨出输入的语 音。
眼下要解决噪音问题一般通过两种办法,一是在训练素材中包括噪音数据,让模型“记住”声音在不同环境下的差异,并在最终识别的时候,对噪音进行降噪处理;另外一种办法,则是识别同样噪声环境里的、没有经过降噪处理的语言。
在数据库有可能建立得比较大的情况下,搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法。但现实是,一般意义上的“噪音”太多。比如汽车的引擎、餐厅中的各种声音,本质上并不相同,但都会对说话人的语音输入造成干扰。对于手机而言,计算和存储能力都有限,建立庞大和复杂的模型并不现实,一般会直接使用降噪处理的办法。
早在1992年,一家名为Nuance的公司就看到了语音识别技术的商机。目前Nuance在美国已经开辟出两部分主要市场,包括咨询业务和医疗诊断记录的听写。2011财年,Nuance的营收共计13.18亿美元,其中产品销售及授权收入占比46%,产品的使用人数已有1600 万。
这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利。在美国昂贵的人工费用压力之下,包括美联航和大部分医院在内的机构,都开始选择语音听写引擎这样的识别设备,解决部分客户服务和书写病历的问题。
将默默埋头赚钱的Nuance推向前台的正是苹果。由于Siri使用了Nuance的语音识别引擎,这家公司开始获得越来越多的曝光。Siri曾在起步阶段使用过其他平台,但最终切换到了Nuance,不知这是否与Siri和Nuance同样出自斯坦福研究院有关。
曾有传言苹果与Nuance进行了几个月的接触,试图收购后者,但因其价值连城的专利,以及“在谈判时近乎于乔布斯级别难缠的CEO”,这场收购后来不了了之。苹果通过引入Nuance的语音识别,再将识别之后的信息与其他“知识和资讯类数据库”连接,在人机交互领域发起了一场革命。
2011年,通过云端访问Nuance的语音数据库的访问量达到了20亿次。眼下,它们也开始进入中国市场,最新版本的Siri将提供包括普通话、广东话和台湾地区国语的识别。不过中文与英文的识别引擎完全不同,需要重新开发。
在中国,还没有形成大规模的语音识别应用市场。国内语音市场占有60%以上份额的是科大讯飞,主要营收也只是来自于语音合成技术。它只是让电脑“念”出文本,在电信公司和银行的呼叫中心里较为常用。
微软创始人比尔·盖茨曾在2008年预测,五年之内互联网的搜索大部分将通过语音完成。现在看来,他或许乐观了一些。即使语音识别技术已经能够适于应用,真正的人机交互还有待于语音识别的更深层—语义识别技术的发展。
如果从字面上解释,语义识别的意义在于能让机器真正明白信息的含义。当机器听到一个名为“意大利菜”的关键词时,技术优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅,但语义识别则意味着,它还可能明白意大利菜会有什么样的口感、或者探知餐厅的氛围。
语义识别的终极梦想是让机器完全辨知人类说话的语义和情绪,就像“钢铁侠”的那位智能助手一样。
与发展相对迅速的语音识别不同,现有的语义识别仍然处于基础阶段,是一种机械的识别过程。“这一类的技术基本上还是填空法。”宋謌平说。当机器听到语音,进行识别之后,会从“语义数据库”中搜索出与其相匹配的关键词,与人的语义理解还有很大区别。
不过在一些垂直领域,语义识别已经获得了一定程度的发展和应用。中华英才网的控股公司、美国最大的人力资源网站Monster,最近开始在中国市场推出一种名为6Sense的语义搜索专利技术。它能将求职者的工作经历、技能、教育背景和所在地区,与目标职位匹配起来,再对他们进行分析、评级和排序,从而提高HR筛选简历的效率。在人力资源领域,“甲骨文”意味着那家国际知名的企业软件公司,而不是中国古代文字。如果仅仅是围绕在一个特定领域内,系统判断和识别的难度要小得多。
从长远来看,语义识别目前还有很多尚未突破的难点。最大的障碍事关情感,机器还没有办法理解人类的情感,它们只能通过语音信号的声学变化去捕捉人类的情绪,比如频率和时长这样的参数;此外,因为语言本身的模糊性,识别过程中的关键词抽取也经常出现不准确的现象。
小i机器人的创立者袁辉说,语义识别的下一步发展,需要长期的、系统的平台去处理每天进来的海量知识和信息,经过长期的集聚,形成工程化的产品,最后才能对知识进行筛选,甚至能够学习新的知识点。
看起来,“云”或许会是一个解决办法。因为云服务器可以容纳规模足够大的模型。如果能有一种算法,使这种模型具有学习能力,就可以将用户的语义在云端服务器中进行分析,再借助网络将指令和文本回传。
尽管可以用语音操作的手机、PC甚至汽车都离我们不太远了,但要让这项技术真正达到善解人意的程度,还需要很长一段时间。
还是先慢慢折腾Siri吧。