语音识别系统技术及市场前景探析

来源 :科技资讯 | 被引量 : 0次 | 上传用户:ytg1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:语音识别系统在现代社会的应用越来越广泛,本文通过对语音识别系统中的关键技术的论述,对语音识别系统的应用市场进行简单分析。
  关键词:语音识别系统 技术 应用 市场
  中图分类号:TP29 文献标识码:A 文章编号:1672-3791(2011)07(b)-0001-01
  
  早在计算机发明之前,语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“RadioRex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。1960年代,人工神经网络被引入了语音识别。语音识别技术的最重大突破是隐含马尔科夫模型HiddenMarkovModel的应用。此后严格来说语音识别技术并没有脱离HMM框架。目前,语音识别系统中的关键处理技术主要有以下三点。
  
  1 说话人自适应和说话人归一化技术
  目前大多数实用语音识别系统中都包含了一个非常重要的模块:自适应模块。它的主要作用是用各种自适应技术来调整声学模型和语言模型,使系统适用新的应用状态,自适应技术就是对系统参数就行调整,从而使系统更好的匹配话筒、传输通道、环境噪声、说话人、文体和应用的上下文等引起的差异。自适应方式,按照训练语音的获取形式来分,主要有三种:批处理方式,训练语音由用户一次性录入,然后进行统一的自适应训练,更新系统参数;在线式,训练语音是用户使用识别系统时所识别的语音,系统根据积累的统计量,按照一定时间间隔更新系统参数;立即式,训练语音是当前正在识别的语音,该模式与在线模式之间的区别在于立即式自适应只利用当前的语音作为自适应,没有在线式自适应的累计过程。
  人与人之间说话的差异很大,但人仍然可以轻松识别不同口音,这说明人的大脑可以进行归一化过程。起初语音中个性化的特征,这样识别系统中说话人的差异就可以解决了。说话人归一技术的思想就源自人的识别过程,说话人归一化的目的就是建立一个归一化的说话人空间,使得任何人的语音都可以映射其中,这样可以把说话人之间差异降到最低。说话人归一化主要有两种:倒谱均值归一化;声道长度归一化。
  
  2 噪声技术
  大多数实际应用环境中总存在着各种各样的噪声,由于训练环境与识别环境不匹配,现有的大多语音识别系统在噪声环境中的性能都不可避免的急剧下降。例如,B.Daytrich等演示了一个在安静条件下识别率为95%的孤立词系统,当在信噪比为18dB时的识别率只有60%。目前,对噪声抑制主要有三种方式:基于小波变换的噪声抑制;基于EVRC编码的噪声抑制;给予HMM模型的噪声抑制。
  
  3 信道补偿
  信道补偿(ChannelCompensation)技术是文件语音识别(RobustSpeechRecognition)的一种有效方式。在语音识别中,识别的稳健性是指在训练和测试环境失配引起的语音因素特性、分割特性或声学忒那个不同时,或输入音质退化时,语音识别系统仍能保持较高识别率的性质。信道补偿技术主要有以下几步:干扰源、稳健语音特征的提取、声学预处理、话筒列阵、基于人耳听觉的信号处理。信道补偿技术的主要方法有:经验补偿技术、盲补偿、基于特征及模型的补偿等。
  语音识别技术的应用可以分为三个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统;另外一个方向是小型化、便携式语音产品的民用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用;再次就是军警的应用。
  3.1 大词汇量连续语音识别系统的应用
  以IBM中国研究中心的创新成果,全球第一个中文大词汇量连续语音识别系统ViaVoice为例。IBMViaVoice是一种通过麦克风输入中文的一种程序。特别适合电脑初学者。所需要做的仅仅是对着话筒喊出。要输入的字符,ViaVoice就会自动判断并且。输入汉字。在ViaVoice中,有一个术语叫做“听写文本”,是用来进行语音输入的命令。当启动ViaVoice语音中心时,屏幕上方就会出现“ViaVoice语音中心”这个菜单,旁边还有一个麦克风按钮。单击麦克风按钮,打开它并准备口述文档。在口述之前,需要确认。用户名出现在语音中心上。然后,就可以开始文档的口述输入了。说“听写到Word”,打开Word,然后开始口述文档。需要提醒您的是,在口述的时候,最好读出文档中的標点符号和格式命令,比如句号,逗号,另起一段等。
  3.2 汽车中的声音识别系统
  驾驶员在驾驶汽车的工程中,想要播放音乐或者启动空调,往往要转移视线到所需的操作设备上,并由手动来完成诸多操作。虽然这些操作需要的时间简短,但也为事故的产生造成两个些许隐患。美国一家公司研制成功的一款用声音识别控制系统,专门用于汽车。在车内安装电脑,驾驶员只需进行常规的驾驶操作。驾驶员通过声音发出命令,控制系统便自动感受语音、识别语音并执行。例如:当驾驶员按下设置在方向盘上的系统开关时,便可向系统传达指令。
  3.3 军警用途
  应用声纹识别技术来确认身份,高精度的身份确认,可以使军事系统的安全性大大增强。一些计算机产品,为了安全起见,也使用了声纹识别技术,例如在普通的移动存储设备上增加声纹认证功能,对电脑系统进行语音加密保护,用以保护个人隐私和军事机密。在军事重地,会使用语音识别系统来加强身份识别、对往来人员进行安全检测,根据人员的声音,通过声纹的识别来验证身份,决定门禁的开合。应用语音识别系统技术,也可以对命令的发出者进行身份确认、严格把关,避免出现敌人冒用指挥官名义发出假名凛,破坏我放军事部署和行动的行为。声音识别系统还有一定的警用用途,如对恐吓电话的声音进行分析识别,就可以在人群中识别罪犯等等。
  
  参考文献
  [1] 陈方,高升.语音识别技术及发展[J].电信科学,1996,10:23~25.
  [2] 刘润生.解读国家863计划项目一语音识别技术[J].科技日报,2001,8,14.
  [3] 易克初,田斌,付强.语音信号处理[M].国防工业出版社,2000,6:25~40.
  [3] 朱民雄,闻新,黄建群,等.计算机语音技术[M].北京航空航天大学出版社,2002:23~25.
其他文献
为了解理工院校文学类通识课程的基本情况,通过对电子科技大学“中国古典文学著作选读”课程的选课学生进行调查,分析了该课程的教学现状和教学效果,在此基础上提出了课程教学的
摘 要:作为一名现代体育教育者不仅要关注中学生的身体健康,更应该关心学生们的心理健康,本文从中学生存在的心理问题入手,根据存在的问题,基于体育教育提出具体的实施措施,从而促进学生身体和心理健康发展。  关键词:中学生;心理健康教育;体育教育  联合国世界卫生组织(WHO)对健康作的定义,即“健康不仅是没有疾病,而且包括躯体健康、心理健康、社会适应良好和道德健康。”体育教学不仅要追求近期效益,更要着
为了提高挤封质量,试验采用WPD新型复合高强度封堵技术进行挤封射孔段,挤封后达到了预期目的,钻塞后套管试压符合要求,WPD新型复合高强度封堵技术的成功应用为今后低产低效井
针对基于HLA搭建虚拟样机仿真系统面临的问题,提出了基于模型包装思想的虚拟样机仿真系统设计方案。在分析模型包装器功能的基础上,给出了基于模型包装器的虚拟样机仿真系统的逻辑结构,讨论了系统实现的几个关键技术,最后给出了原型系统SimKit的设计和实现。
给出并证明了多延迟中立型系统渐近稳定的克分条件;分析了用线性多步法求解多延迟中立型系统数值解的稳定性,基于Lagrange插值,证明了数值求解多延迟中立型系境的线性多步法渐近
在我国几个不同版本语文教材的编排中,都借助图画训练小学生写话。以人教版一年级(上)语文教材为例,在每一个语文园地这一部分,固定的设有“习作”板块,主要由一幅幅精美、简单的图
摘 要:作为新型聚酯单体,ε-己内酯(ε-CL)被广泛应用于合成各种聚己内酯和共混改性树脂。文章介绍了ε-CL的常用合成方法和最新进展,并对其改性应用做了简单介绍。  关键词:ε-己内酯 间接氧化法 环己酮  中图分类号:TQ317 文献标识码:A 文章编号:1672-3791(2011)01(b)-0001-01    ε-己内酯是一种重要的高分子聚合单体,20世纪30年代制备成功以来,其合成方
摘 要:很多学生认为高中物理学习有些困难,但只要有正确的方法是可以学好的。好的学习方法包括四个主要环节:课前预习,课上听讲,课后复习,练习。在这四个环节中,每一个环节都需要开动脑筋,不能只是流于形式,不光要把基础知识掌握好,还要多做题,做好题,而且要在出错的问题上好好钻研,积累经验。另外,物理的学习和数学还有着很深的关系,有些物理问题也可以用数学方法来解决。在物理的学习中还要非常重视实验的作用。如
结合与纳米技术相关的科研课题,引导学生了解科学研究的思路,激发学生探求科学的兴趣,提高学生的实验操作技能和自主创新的能力。我们将兴趣小组的开展分成:纳米材料的基本知
根据等失真(Equidistortion)理论提出了一种基于改进的自组织特征映射(SOFM)神经网络的矢量量化方法,该算法将失真敏感机制引入神经网络的竞争学习过程。通过调整码字的部分失真来指导神经网络的学习,以使得所设计的码书平均失真最小。同时把矢量量化应用于图像的小波变换域,根据图像小波变换高频系数的空间分布特点来组织码书,从而进一步提高码书的质量和适应性。通过实验对算法的性能进行了分析,证明了