用互联网思维做语音识别

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:homking14
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “今年3月,创新工场合伙人郎春晖对云知声的语音识别技术很感兴趣,约我到创新工场交流。李开复老师的博士论文就是关于语音识别的,但他觉得这项技术不可能做得多好,因此很久没有关注这个领域了。”云知声信息技术有限公司(下文简称云知声)总裁梁家恩说,“郎春晖把我拉进李开复的办公室,当着大家的面,他可能觉得不试试我们的产品也不好。连续试了几句话后,他惊讶地问道:你们怎么做到这种水平的?”
  转机
  让计算机能够识别人类的语音,从而使得人们能够用自己的母语与计算机进行人机交互,一直是计算机学科追求的目标之一。谈到语音识别,就不能不谈一下李开复。
  1983年秋,李开复进入卡内基·梅隆大学,师从罗杰·瑞迪教授,攻读博士学位。瑞迪建议李开复选择不特定语者的语音识别系统作为研究方向,并建议采用专家系统的方法,来解决让电脑听懂每个人说的话的难题。瑞迪是人工智能领域的权威,后来还获得1994年图灵奖。经过近1年的研究,尽管研究有了一些进展,但李开复最终认识到,受技术发展的限制,专家系统相当长时间内难以解决这一难题。在一位同门师兄的提醒下,李开复转而采用统计模型的研究路径,终获成功。1988年,李开复获得博士学位。时至今日,语音识别技术依旧采用的是李开复开创的统计模型。
  1998年,IBM中文语音识别技术Via Voice在国内PC市场掀起了一场中文语音输入热潮。第二年,当今国内最大的智能语音识别公司科大讯飞诞生于中国科技大学。
  同年,出任微软中国研究院院长的李开复曾告诉媒体,语音识别需要的计算资源太多,实用化还要走很长的路。
  “中文语音识别市场在2000年左右逐渐由热变冷,这主要是由于当时算法还比较初级,对计算资源的需求很大,产业环境也不成熟。于是,很多人转去做别的行业。也正是在这个时候,我们团队的主要成员初涉这个领域,进入研究所和高校读博读硕。”梁家恩就在那个时期考入中科院自动化所模式识别国家重点实验室。模式识别实验室分为图像识别和语音识别两大研究方向,图像识别领域诞生了汉王公司,而梁家恩则在语音识别领域历经5年寒窗,完成了硕博连读。
  梁家恩介绍说:“我们这些人一直专注于语音识别和语义理解的研究。到了2010年左右,语音识别技术取得了突破性进展,移动互联网也得到普及。加之2011年10月苹果iPhone 4S发布,作为新产品一大亮点的智能语音助手Siri在市场上再次引爆语音识别热。我们觉得商业化的机会已经成熟,2012年6月,我们创建了云知声,并搭建了用于语音识别的公有云平台。”
  突破
  虽然现在的语音识别还是采用统计算法,但这十多年来,语音识别技术发展很快。
  “首先是数据资源丰富了,以前在实验室收集几百个人的语音都非常困难,现在我们有了语音云平台,吸引了各地不同口音的人们,每天采集上百GB的数据量,样本非常丰富,这有利于分析和改进我们的系统。现在的样本规模比李开复老师当时做的系统的样本规模扩大了几个数量级,而且现在的数据都是真实数据,远非那时模拟数据所能比拟,这在统计算法中至关重要。”梁家恩表示。
  “二是统计技术和神经网络学习等关键技术取得较大的突破,在环境噪声处理和对口音识别方面的改进非常明显,识别率显著提升。算法上也做了一些优化,以前的算法你要做一系列实验可能需要一两年的时间,根本没法实现。”梁家辉说,“再有就是智能手机中CPU技术的进步以及GPU的应用,加之后台云计算处理能力的提升,为智能语音识别提供了强大的计算资源。”
  语音识别实际上是搜索。梁家恩介绍说,语音识别就是从一句话的声波中提取语音特征,然后与后台数据进行匹配,由于现在的数据库非常大,因此比对的精确度比过去要高得多。虽说都是搜索,但百度搜索是文本检索,它要求捕获全网信息的变化,即信息更新要快。而语音识别上,因为语音特征与文本并没有对应关系,因此,比对精确度就成为语音识别的核心技术所在。
  由于面向语音识别这一特定应用,云知声的公有云平台与通用的云平台也有所区别。“我们底层采用的也是集群架构,单台服务器并发线程数达到100,这已是业界最快的;再通过灾备、安全等技术来确保平台的稳健;然后是将目前已经建立的北京、上海和广州机房的计算资源联在一起。我们也对虚拟化做了测试,但虚拟化会带来5%~10%的性能损失,这与我们追求性能最高化的目标不符合。因此,我们采用高性能计算平台,让硬件对语音识别这一特定应用进行优化。”
  互联网思维
  伴随着智能手机和平板电脑取代PC成为个人计算市场的主流,人机交互也从传统的键盘操作转换为触屏操作。而在注重用户体验的移动互联网时代,智能语音识别将带来更快更方便的用户体验,特别是在车载、可穿戴式电脑等应用上。
  梁家恩认为,作为自然高效的交互方式,智能语音技术不仅要识别用户的话语,而且还要能够智能地通过屏幕或者TTS(从文本到语音)的方式实现与用户交流,因而在智能移动设备、广播电视、呼叫中心、会议记录、语言学习、知识学习、互动娱乐等领域有着广阔的应用前景。
  “我想查一下今天晚上北京飞上海的航班。”在采访过程中梁家恩对着手机说,话音刚落,手机屏幕上刷新出北京至上海的航班信息。
  这个简单的演示可以直白地反映出云知声的商业模式。由于智能手机与机主的对应关系,加之其定位和支付功能,这句话已经包含了这一具有在线支付手同的潜在顾客是谁、在什么地方、具体需求是什么。这对于商家而言,客户信息已经足够了,商家甚至还可以通过手机号码来关联客户的信用、过往的消费习惯等,从而做出精准的营销响应。
  “我们不像现在市场有的语音识别公司那样,通过软件授权的方式向用户收费。我们相信互联网的力量,所有语音用户需求汇总到后台后,所蕴含的商业价值要远远大于软件授权带来的价值。”梁家恩说,“我们承诺将公有云平台服务的体验做到极致并且永远免费,同时云知声的智能语音技术向合作伙伴完全开放,即不限领域、不限形态、不限商业模式。当后台数据的商业价值变现时,我们将与合作伙伴分成。”
  梁家恩介绍说,云知声目前已经拥有1500多家合作伙伴,如联想、乐视、同方、小米等设备商,搜狗、易信、人人网、触宝等互联网公司,通用、麦特等智能车载厂商,杏树林等医疗应用软件商。除了已经将语音技术嵌入到手机、搜索和智能电视等合作伙伴产品中外,云知声还在跟呼叫中心洽谈合作。
  技术实力和商业模式让成立仅1年的云知声,拿到了1亿元的A轮融资。
其他文献
2012年度中国  邮箱信息化  最佳服务奖  139邮箱是中国移动提供的电子邮件业务,为用户提供以手机号@139.com为后缀的邮箱。截至2012年7月,139邮箱在网注册用户数已经超过3亿,月活跃用户超过6000万个,用户规模紧随腾讯邮箱和网易邮箱之后,位居个人邮箱行业第三。  139邮箱是中国移动提供的电子邮件业务,为用户提供以手机号@139.com为后缀的邮箱。它在为用户提供方便、易用、个
随着多媒体信息越来越多,会议资料、产品资料、策划方案、备份文档这些资料需要通过光盘来进行传递或者保存。过去统一的光盘封面很难做到个性化,不能够代表企业的形象,而且需要人工进行封面书写,不够正式而且容易出错。当需要在短时间内制作大量光盘时,由于是全手工操作,工作人员往往叫苦不迭。   针对这一问题,爱普生推出了集成光盘刻录、光盘印刷的光盘刻录印刷机Epson Discproducer PP-100
移动互联网作为新一代信息技术的重要组成部分已进入了中国战略性新兴产业的发展视野。国务院总理温家宝在2011年12月23日主持召开的国务院有关部署加快发展我国下一代互联网产业的常务会议中明确指出,今后一个时期我国发展下一代互联网的路线图和主要目标,支持物联网、云计算、移动互联网发展。工业和信息化部将会对此作出具体部署。    初步形成“南北呼应,西部崛起”的总体分布。中国移动互联网产业主要集中于珠三
这是一个老牌ERP企业,成立于1998年,是国内最早从MRPⅡ发展而来的拥有自主品牌和知识产权的管理软件及服务提供商。其创始人陈佳当时创业的初衷就是为了打造国产的ERP软件,填补国产ERP的空白。在上世纪90年代初,陈佳发现,国内的软件开发人员廉价地为国外公司开发软件,而国内企业却要花高价购买并不完全适用的国外软件。“国外ERP非常贵,而且不能完全满足国内企业的需求,国内没有一家做ERP的企业”。
现代计算机网络的建设在规模和复杂程度上,正向着更大、更快速的方向发展,网络的管理人员也渐渐地认识到,有效地控制现有的IT资源,对于提高网络资源利用率和降低管理运营成本有着极为重要的作用。所以对于IT资源的管理者,特别是高集成度的计算机机房和数据中心的管理,将会提出日益严格和细化的要求。   针对于物理层管理的智能布线产品在网络基础设施建设的应用中,已经有了很多成功的案例,IT管理人员也越来越重视
8月8日,建研科技股份有限公司(以下简称“建研科技”)与Bentley软件公司签署了战略合作备忘录,旨在就建立长期合作伙伴关系,共同推进建筑信息模型(BIM)软件在中国的数据互用性。  这是继7月与AutoDesk建立合作关系来推进BIM标准的建立后,建研科技借助合作来推进我国BIM标准建设的又一重要举措。  统一标准价值大  BIM是指以建筑工程项目的各项相关信息数据作为模型的基础建立建筑模型。
“它以胜利的爪子抓住了失败。”计算机领域的史学家赫伯·格罗斯切(Herb Grosch)曾这样评价雷明顿·兰德公司。  在上世纪50年代初,雷明顿·兰德公司曾是计算机领域的龙头老大,比IBM领先了大约5年时间。    在枪声中起步    “砰!”最后一枪响起,掌声一片。年轻的伊利法莱特·雷明顿垂下枪口,脸上洋溢着自信的微笑。  这是19世纪20年代在美国的一场射击比赛。雷明顿手中经过他改进后的步枪
补贴优惠政策不是吸引外商投资的唯一因素,争取增量市场、提高采购和交付效率、抢夺未来知识资本,才是企业全球化的动因。  —— 本报记者 张建设    三星电子一期投资70亿美元的存储芯片项目落户西安高新开发区,这是一件普通的企业海外投资、地方政府招商引资事件。由于该项目投资规模大、技术含量高和参与竞争的园区多,引起了社会的广泛关注。有报道称,该项目三期投资将达300亿美元;三星电子将采用最先进的技术
“零日攻击”之所以危险至极,一是黑客从发现“零日漏洞”到发起攻击的时间间隔极短,安全设备很难识别出攻击行为,二是程序开发商发现并修补漏洞的速度,滞后于攻击者对漏洞的利用速度。安全厂商一直在寻找有效遏制“零日攻击”的方式。    操作系统与应用程序的漏洞从来都不会消失。知名研究机构Ogren Group在其近日发布的《虚拟补丁:有效的成本节省策略》专题报告中指出:“漏洞一旦公布,一天之内就会出现专门
2012年中国优秀软件企业  2012年中国软件行业创新奖  金航数码科技有限责任公司是中航工业信息化专业支撑团队,作为国内外先进信息技术的创造性应用者和本地化推进者,肩负着“推进产业信息化,实现信息产业化”的使命。在信息化咨询、管理信息化、工程信息化、综合保障信息化、系统集成与信息安全、IT运维与管理等业务领域为客户提供覆盖产品全生命周期、管理全业务流程、企业全价值链的“三全应用”服务。历经十余