论文部分内容阅读
摘 要:语音识别系统在现代社会的应用越来越广泛,本文通过对语音识别系统中的关键技术的论述,对语音识别系统的应用市场进行简单分析。
关键词:语音识别系统 技术 应用 市场
中图分类号:TP29 文献标识码:A 文章编号:1672-3791(2011)07(b)-0001-01
早在计算机发明之前,语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“RadioRex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。1960年代,人工神经网络被引入了语音识别。语音识别技术的最重大突破是隐含马尔科夫模型HiddenMarkovModel的应用。此后严格来说语音识别技术并没有脱离HMM框架。目前,语音识别系统中的关键处理技术主要有以下三点。
1 说话人自适应和说话人归一化技术
目前大多数实用语音识别系统中都包含了一个非常重要的模块:自适应模块。它的主要作用是用各种自适应技术来调整声学模型和语言模型,使系统适用新的应用状态,自适应技术就是对系统参数就行调整,从而使系统更好的匹配话筒、传输通道、环境噪声、说话人、文体和应用的上下文等引起的差异。自适应方式,按照训练语音的获取形式来分,主要有三种:批处理方式,训练语音由用户一次性录入,然后进行统一的自适应训练,更新系统参数;在线式,训练语音是用户使用识别系统时所识别的语音,系统根据积累的统计量,按照一定时间间隔更新系统参数;立即式,训练语音是当前正在识别的语音,该模式与在线模式之间的区别在于立即式自适应只利用当前的语音作为自适应,没有在线式自适应的累计过程。
人与人之间说话的差异很大,但人仍然可以轻松识别不同口音,这说明人的大脑可以进行归一化过程。起初语音中个性化的特征,这样识别系统中说话人的差异就可以解决了。说话人归一技术的思想就源自人的识别过程,说话人归一化的目的就是建立一个归一化的说话人空间,使得任何人的语音都可以映射其中,这样可以把说话人之间差异降到最低。说话人归一化主要有两种:倒谱均值归一化;声道长度归一化。
2 噪声技术
大多数实际应用环境中总存在着各种各样的噪声,由于训练环境与识别环境不匹配,现有的大多语音识别系统在噪声环境中的性能都不可避免的急剧下降。例如,B.Daytrich等演示了一个在安静条件下识别率为95%的孤立词系统,当在信噪比为18dB时的识别率只有60%。目前,对噪声抑制主要有三种方式:基于小波变换的噪声抑制;基于EVRC编码的噪声抑制;给予HMM模型的噪声抑制。
3 信道补偿
信道补偿(ChannelCompensation)技术是文件语音识别(RobustSpeechRecognition)的一种有效方式。在语音识别中,识别的稳健性是指在训练和测试环境失配引起的语音因素特性、分割特性或声学忒那个不同时,或输入音质退化时,语音识别系统仍能保持较高识别率的性质。信道补偿技术主要有以下几步:干扰源、稳健语音特征的提取、声学预处理、话筒列阵、基于人耳听觉的信号处理。信道补偿技术的主要方法有:经验补偿技术、盲补偿、基于特征及模型的补偿等。
语音识别技术的应用可以分为三个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统;另外一个方向是小型化、便携式语音产品的民用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用;再次就是军警的应用。
3.1 大词汇量连续语音识别系统的应用
以IBM中国研究中心的创新成果,全球第一个中文大词汇量连续语音识别系统ViaVoice为例。IBMViaVoice是一种通过麦克风输入中文的一种程序。特别适合电脑初学者。所需要做的仅仅是对着话筒喊出。要输入的字符,ViaVoice就会自动判断并且。输入汉字。在ViaVoice中,有一个术语叫做“听写文本”,是用来进行语音输入的命令。当启动ViaVoice语音中心时,屏幕上方就会出现“ViaVoice语音中心”这个菜单,旁边还有一个麦克风按钮。单击麦克风按钮,打开它并准备口述文档。在口述之前,需要确认。用户名出现在语音中心上。然后,就可以开始文档的口述输入了。说“听写到Word”,打开Word,然后开始口述文档。需要提醒您的是,在口述的时候,最好读出文档中的標点符号和格式命令,比如句号,逗号,另起一段等。
3.2 汽车中的声音识别系统
驾驶员在驾驶汽车的工程中,想要播放音乐或者启动空调,往往要转移视线到所需的操作设备上,并由手动来完成诸多操作。虽然这些操作需要的时间简短,但也为事故的产生造成两个些许隐患。美国一家公司研制成功的一款用声音识别控制系统,专门用于汽车。在车内安装电脑,驾驶员只需进行常规的驾驶操作。驾驶员通过声音发出命令,控制系统便自动感受语音、识别语音并执行。例如:当驾驶员按下设置在方向盘上的系统开关时,便可向系统传达指令。
3.3 军警用途
应用声纹识别技术来确认身份,高精度的身份确认,可以使军事系统的安全性大大增强。一些计算机产品,为了安全起见,也使用了声纹识别技术,例如在普通的移动存储设备上增加声纹认证功能,对电脑系统进行语音加密保护,用以保护个人隐私和军事机密。在军事重地,会使用语音识别系统来加强身份识别、对往来人员进行安全检测,根据人员的声音,通过声纹的识别来验证身份,决定门禁的开合。应用语音识别系统技术,也可以对命令的发出者进行身份确认、严格把关,避免出现敌人冒用指挥官名义发出假名凛,破坏我放军事部署和行动的行为。声音识别系统还有一定的警用用途,如对恐吓电话的声音进行分析识别,就可以在人群中识别罪犯等等。
参考文献
[1] 陈方,高升.语音识别技术及发展[J].电信科学,1996,10:23~25.
[2] 刘润生.解读国家863计划项目一语音识别技术[J].科技日报,2001,8,14.
[3] 易克初,田斌,付强.语音信号处理[M].国防工业出版社,2000,6:25~40.
[3] 朱民雄,闻新,黄建群,等.计算机语音技术[M].北京航空航天大学出版社,2002:23~25.
关键词:语音识别系统 技术 应用 市场
中图分类号:TP29 文献标识码:A 文章编号:1672-3791(2011)07(b)-0001-01
早在计算机发明之前,语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“RadioRex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。1960年代,人工神经网络被引入了语音识别。语音识别技术的最重大突破是隐含马尔科夫模型HiddenMarkovModel的应用。此后严格来说语音识别技术并没有脱离HMM框架。目前,语音识别系统中的关键处理技术主要有以下三点。
1 说话人自适应和说话人归一化技术
目前大多数实用语音识别系统中都包含了一个非常重要的模块:自适应模块。它的主要作用是用各种自适应技术来调整声学模型和语言模型,使系统适用新的应用状态,自适应技术就是对系统参数就行调整,从而使系统更好的匹配话筒、传输通道、环境噪声、说话人、文体和应用的上下文等引起的差异。自适应方式,按照训练语音的获取形式来分,主要有三种:批处理方式,训练语音由用户一次性录入,然后进行统一的自适应训练,更新系统参数;在线式,训练语音是用户使用识别系统时所识别的语音,系统根据积累的统计量,按照一定时间间隔更新系统参数;立即式,训练语音是当前正在识别的语音,该模式与在线模式之间的区别在于立即式自适应只利用当前的语音作为自适应,没有在线式自适应的累计过程。
人与人之间说话的差异很大,但人仍然可以轻松识别不同口音,这说明人的大脑可以进行归一化过程。起初语音中个性化的特征,这样识别系统中说话人的差异就可以解决了。说话人归一技术的思想就源自人的识别过程,说话人归一化的目的就是建立一个归一化的说话人空间,使得任何人的语音都可以映射其中,这样可以把说话人之间差异降到最低。说话人归一化主要有两种:倒谱均值归一化;声道长度归一化。
2 噪声技术
大多数实际应用环境中总存在着各种各样的噪声,由于训练环境与识别环境不匹配,现有的大多语音识别系统在噪声环境中的性能都不可避免的急剧下降。例如,B.Daytrich等演示了一个在安静条件下识别率为95%的孤立词系统,当在信噪比为18dB时的识别率只有60%。目前,对噪声抑制主要有三种方式:基于小波变换的噪声抑制;基于EVRC编码的噪声抑制;给予HMM模型的噪声抑制。
3 信道补偿
信道补偿(ChannelCompensation)技术是文件语音识别(RobustSpeechRecognition)的一种有效方式。在语音识别中,识别的稳健性是指在训练和测试环境失配引起的语音因素特性、分割特性或声学忒那个不同时,或输入音质退化时,语音识别系统仍能保持较高识别率的性质。信道补偿技术主要有以下几步:干扰源、稳健语音特征的提取、声学预处理、话筒列阵、基于人耳听觉的信号处理。信道补偿技术的主要方法有:经验补偿技术、盲补偿、基于特征及模型的补偿等。
语音识别技术的应用可以分为三个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统;另外一个方向是小型化、便携式语音产品的民用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用;再次就是军警的应用。
3.1 大词汇量连续语音识别系统的应用
以IBM中国研究中心的创新成果,全球第一个中文大词汇量连续语音识别系统ViaVoice为例。IBMViaVoice是一种通过麦克风输入中文的一种程序。特别适合电脑初学者。所需要做的仅仅是对着话筒喊出。要输入的字符,ViaVoice就会自动判断并且。输入汉字。在ViaVoice中,有一个术语叫做“听写文本”,是用来进行语音输入的命令。当启动ViaVoice语音中心时,屏幕上方就会出现“ViaVoice语音中心”这个菜单,旁边还有一个麦克风按钮。单击麦克风按钮,打开它并准备口述文档。在口述之前,需要确认。用户名出现在语音中心上。然后,就可以开始文档的口述输入了。说“听写到Word”,打开Word,然后开始口述文档。需要提醒您的是,在口述的时候,最好读出文档中的標点符号和格式命令,比如句号,逗号,另起一段等。
3.2 汽车中的声音识别系统
驾驶员在驾驶汽车的工程中,想要播放音乐或者启动空调,往往要转移视线到所需的操作设备上,并由手动来完成诸多操作。虽然这些操作需要的时间简短,但也为事故的产生造成两个些许隐患。美国一家公司研制成功的一款用声音识别控制系统,专门用于汽车。在车内安装电脑,驾驶员只需进行常规的驾驶操作。驾驶员通过声音发出命令,控制系统便自动感受语音、识别语音并执行。例如:当驾驶员按下设置在方向盘上的系统开关时,便可向系统传达指令。
3.3 军警用途
应用声纹识别技术来确认身份,高精度的身份确认,可以使军事系统的安全性大大增强。一些计算机产品,为了安全起见,也使用了声纹识别技术,例如在普通的移动存储设备上增加声纹认证功能,对电脑系统进行语音加密保护,用以保护个人隐私和军事机密。在军事重地,会使用语音识别系统来加强身份识别、对往来人员进行安全检测,根据人员的声音,通过声纹的识别来验证身份,决定门禁的开合。应用语音识别系统技术,也可以对命令的发出者进行身份确认、严格把关,避免出现敌人冒用指挥官名义发出假名凛,破坏我放军事部署和行动的行为。声音识别系统还有一定的警用用途,如对恐吓电话的声音进行分析识别,就可以在人群中识别罪犯等等。
参考文献
[1] 陈方,高升.语音识别技术及发展[J].电信科学,1996,10:23~25.
[2] 刘润生.解读国家863计划项目一语音识别技术[J].科技日报,2001,8,14.
[3] 易克初,田斌,付强.语音信号处理[M].国防工业出版社,2000,6:25~40.
[3] 朱民雄,闻新,黄建群,等.计算机语音技术[M].北京航空航天大学出版社,2002:23~25.