语音识别 理想与现实的距离

来源 :计算机世界 | 被引量 : 0次 | 上传用户:xwp1024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  让机器能够听懂人类的语言,一直以来都是人类梦寐以求的愿望。在今天,语音识别到底离我们有多远?
  很小的时候爱看科幻小说,在那样的小说中,曾经看到过科幻小说家预言未来的人会长成什么样子。按照达尔文的进化理论,未来的人脑袋将会变得极其之大,而四肢则渐渐退化。因为人类通过聪明的大脑,逐步让四肢从繁琐的工作中解放出来,最终就会变成脑袋庞大而四肢退化的模样。而语音识别(Speech Recognition)就是在这种科幻进程中解放我们双手的一项重要技术。
  让机器直接能够听懂人类的语言,一直以来都是人类梦寐以求的愿望。可是语音识别技术虽行之有年, 但进展却似乎缓慢。当记者走进中科院声学所的中科信利语音实验室,才切身体会到,其实语音识别离我们并不遥远。
  
  哼唱识别系统
  
  不久前,中科院声学所的中科信利语音实验室开发出了一种“哼唱检索系统”,无需鼠标键盘,对着话筒哼唱出歌曲的旋律就可以检索到哼唱歌曲的曲名。当记者在中科信利语音实验室的会议室,面对屏幕,拿着话筒哼起一段邓丽君的《甜蜜蜜》的旋律时,大概只用了6~10秒,检索系统就自动检索出来了所哼唱旋律的歌名,并附上了完整的歌词。
  “哼唱检索系统是通过旋律匹配进行检索的。”博士毕业论文专门研究哼唱检索系统的语音助理研究员李明介绍说。哼唱检索系统根据歌曲旋律的走势来匹配检索,而不是通过音调。因为音调的基准会有所不同,这就大大降低了检索识别的适用性。所以,对于哼唱检索系统的使用者而言,哼唱节奏的快慢,以及记得歌词与否,都对检索识别没有影响。正是因为此,这套系统在由美国伊利诺斯大学负责主办的国际音乐信息检索评测比赛(MIREX)中,以92%的准确度获得了第一名的好成绩。
  任何系统都不能只存在于实验室中,哼唱检索系统业理所当然要走出实验室。“我们的哼唱检索系统已经在河北等地的移动彩铃业务中应用了。”中科信利语音实验室研究室主任颜永红说。“用户通过哼唱一段旋律,就能查找到自己听过却不知道名称的歌曲或彩铃,然后进行点播和下载。这种大规模的商业应用,已经进入了成熟阶段。”颜永红还表示,实验室正在着手和互联网几大音乐内容提供商合作,相信在不久的将来,就可以实现在互联网上哼唱一段旋律来检索歌曲名称。
  
  提高识别率
  
  对于中科信利语音实验室研究出来的这套哼唱识别系统,还有一个更好的应用前景就是在KTV等场所的歌曲检索。对于爱好唱歌的人而言,一定都有过这样的经历: 往往熟悉一首歌曲的旋律,却记不住歌曲的名称。特别是在KTV点唱时,K友常常会遇到这样的问题,想唱却又找不到歌名。哼唱检索系统正好解决了这样的问题。试想,当有一天,我们在KTV中点歌时,不必再通过繁琐的手动操作界面,而只需要通过口头来完成,那种感觉又岂是方便两个字能简单概括的。而这种搜索模式的实现,其实只要在KTV的点歌系统中嵌入哼唱检索系统的技术就可以了。
  但是,中科信利语音实验室开发出来的哼唱检索系统对哼唱的环境是有所要求的。“我们的检索环境要求是要相对安静的。”李明这样介绍说。那么,对于KTV中过于嘈杂的语音环境,哼唱检索系统,如何发挥他的威力呢?
  “目前语音识别技术需要解决的问题,一个是对噪音环境的处理,一个是对不同口音的识别,再一个就是要不断提出好的算法。”颜永红这样对记者说到。语音识别技术的基本原理就是对输入的语音信号进行分析,抽取语音特征参数与存储器中的语音模板的参数进行匹配识别。因此,语音识别技术不仅对识别的背景、噪声干扰有要求,同时,对说话者的清晰程度、连贯程度,以及是否口语化是否带口音,也都有要求。这些正是导致语音识别技术识别率不高的主要原因,也是导致语音识别技术一直没有能够大规模展开应用的瓶颈。
  如何提高识别率一直都是语音识别技术不断挑战的问题。基于目前的语音识别技术,语音识别的应用,应该是相对小众的,而且面对特殊人群的。例如,某一领域,相对安静背景的语音识别的应用,又或,就目前而言,语音识别技术对于盲人群体的作用与帮助要大大高于一般的正常人。
  
  语音识别搜索
  
  语音识别技术一个很有效的应用,就是语音识别搜索。“语音识别搜索主要有三种方式: 原声搜索、旋律匹配搜索和语音搜索。”中科信利语音实验室副研究员赵庆卫博士告诉记者。原声搜索是针对原始声音进行完整匹配的搜索。除人声外,其他周遭的一切声音都可以针对原声搜索出其位置。而哼唱检索系统就是典型的旋律匹配搜索。至于语音搜索,是指针对某一特定人员的语音进行筛选搜索的方式。
  在信息疯狂膨胀的时代,对于浩瀚信息中的有效资源搜索毫无疑问是相当重要的。而且,信息已经不单纯是以往的纯文本,而是逐步发展到了音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音、视频文件已经不足以满足用户的需求。通过语音识别对音、视频内容的搜索已经开始广泛应用。
  美国的Blinkx就是最先开始应用语音识别进行内容搜索的网站之一。而在国内,openv.tv也露出了做专业的电视及视频搜索引擎的意图。当文字搜索已经发展到几乎没有上升空间的时候,微软、Google这些技术巨头也开始瞄准未来的语音、视频搜索市场。
  未来无限大
  语音识别芯片的应用范围其实十分广阔: 电话通信中的语音拨号、汽车的语音控制、工业控制及医疗领域的人机语音交互界面、个人数字助理(Personal Digital Assistant,PDA)的语音交互界面、语音智能玩具、家电的语音遥控等。解放双手,丰富沟通,是在这些领域应用的共性。
  除此之外,语音识别还可以给我们带来更多的便利。“语音识别的关键一个是发音评估,一个是内容识别。”赵庆卫说。除了哼唱检索系统以外,中科信利语音实验室在音频水印、发音纠正、语种识别等方面都有成果。音频水印是以编码方式嵌入音、视频文件,主要应用于音、视频文件的版权保护、保密通信以及广播监听。发音纠正软件可以对说话人的发音进行评估和分析,特别有助与用户的语言学习。据赵庆卫介绍,这种发音纠正已经用于国内部分地区推广普通话的进程中了。
  “市场每年;都在变大。”谈及语音识别市场的未来时,颜永红如是说。根据半导体行业的摩尔定律,硬件成本过高是导致语音识别技术无法在家电等领域应用的主要原因。“早在2002年,技术上就已经实现在电话上应用语音识别技术了,但是却只能用在部分高端手机上。”颜永红说。
  中科信利语音实验室目前一直在和致力于芯片技术的厂商合作,从而有效地解决了语音处理过程中遇到的噪声等问题,提高了声学语音传达的准确性,与语音识别软件技术形成优势互补。
  “希望10年到20年的时间内,语音识别技术会有长足的发展。”颜永红充满期盼地说道。也许过不了多久,面貌焕然一新、同时蕴藏巨大商机的语音识别应用热潮,将会彻底改变人们的思维定势,其实理想和现实的距离并不如我们想象的那么遥远。
  
其他文献
(记者毛江华)多年前的网络投资,只需要更换一下交换机主引擎,就可以满足今天的IPv6、web2.0、统一通信、视频会议等新业务应用,而所需要增加的替换成本却只是原有投资的15%~20%。  11月7日,思科在全球同步高调推出了全新的模块化Catalyst交换系统: Cisco Catalyst 6500系列虚拟交换系统(VSS)1440和Cisco Catalyst 4500 E-系列。  “这是
本报讯(记者 陈斌)5月14日,历时两年之久的英特尔与深圳东进知识产权诉讼案最终以和解告终。英特尔中国区策略合作部总监王黎女士和深圳东进公司总经理贺建楠分别代表各自的公司在双方的联合声明上签字。   联合声明中称:“基于目前的企业战略及业务经营考虑,继续诉讼无益于各自的最佳商业利益。”据透露,双方是在法院的积极推动下达成和解的,但拒绝对外透露和解协议的具体条款。   2004年12月,英特尔美国总
用电话找凳子,你相信吗?坂村健先生可以随时用手机拨通一个号码,输入凳子的ucode信息,就可以立刻知道凳子的三维具体信息,这是在整个办公环境都实现普适计算后才能实现的结果。   时至今日,信息成几何级数飞涨,办公环境中遇到的不再是缺少什么,而且如何从浩如烟海的信息中找到真正需要的信息。   在6月19日,由《计算机世界》报社、《微电脑世界》杂志社承办,理光软件研究所(北京)有限公司、中日电子政府应
本报讯 (记者 毛江华)微软最新的操作系统Windows Vista是否存在重大安全漏洞问题在业界引发了争论。微软安全专家22日在接受本报质询时表示,Windows Vista不存在系统安全漏洞。一名第三方安全专家在接受本报记者采访时也表示,任何软件都不能保证100%的安全。   事情起因是,北京东方微点公司总经理兼总工程师刘旭上周在北京召集媒体通报会时说,该公司安全专家在中国首次发现微软开发的W
惠普打造HP Software品牌    本报综合消息 惠普公司亚太区HP Software副总裁Steve McWhirter 2006年12月26日说,惠普正在开发HP Software品牌资产,而放弃此前收购的OpenView和Mercury品牌名正是HP Software品牌资产开发工作的组成部分。   在惠普公司2006年12月于奥地利维也纳举行的“Software Universe”活
4月17日举办的2007年英特尔春季信息技术峰会(IDF),是今年春季全球惟一的一场技术盛宴。IDF的创新特质,使得每届峰会都有很多个“第一”,这次也不例外。   从第一颗微处理器的诞生,从以速度为指标的个人计算,到以强调效能的多核技术为动力的丰富应用,尽管面临着激烈的市场竞争,英特尔这家39年的老字号公司,依然保持着技术开创者的本色。   “英特尔未来的方向是要走一条不断创造更高性能、更低功耗的
阿里巴巴董事局主席 马云  危机将在两三年内打击每一个人,但伴随着危机,机遇也即将来临,优秀企业在逆境中照样可以发展。  危机是危险中的机会。所谓危机,是人类社会进入商业社会全球化的阵痛。优秀的企业家必须学会比别人提前适应这个环境,谁先适应谁就有机会。做企业至少要做5年到10年的考虑,两年到3年的灾难不算什么灾难。  在顺境时代,会诞生伟大企业,在逆势时代也有伟大企业。这个世界缺失的不是钱,商业社
分页走出国门的中国网络游戏,虽然取得了不错的成绩,但仍处于起步阶段,需要跨越文化、品牌和运营模式这“三座大山”。    今年以来,像很多中国IT企业一样,“国际化”也被提上了网络游戏厂商的日程。完美时空、金山、网龙、盛大等公司纷纷加大了海外拓展的力度,并取得了不错的成绩。完美时空的财报显示,完美时空今年前9个月的海外授权许可收入达到了1900万美元。  在网游厂商大举进军海外的同时,很多业内人士也
本报讯 近日,曙光发布了天阔i200-F服务器新品。天阔i200-F是一款基于英特尔最新E7230芯片组技术的双核单路工作组级IA架构服务器产品,以最新的双核技术、双通道ECC DDR2内存模块以及PCI-E等技术的应用,给用户带来了更强大的计算能力和扩展能力。此款服务器主要应用于各中小企业以及教育、政府、邮政、铁路、税务等行业用户的工作组级服务器,它能很好地胜任防火墙、文件服务器、电子邮件服务器
在福建省泉州市南安兰田村,52岁的林阿婆手握鼠标,悠闲地在网上“冲浪”,搜索、听歌,动作一点也不比年轻人慢。随着信息化扶贫快车驶入兰田村,村民的生活发生了巨大变化,以前和村里其他老人扎堆在路边闲聊的林阿婆,成为现代化“新农村”中的“新农民”,兰田村也从当地有名的“浪人村”变为全省闻名的“文人村”。    10月17日,为纪念第16个“国际消除贫困日”,在中国扶贫开发协会与中国致公党中央联合举办的“