论文部分内容阅读
随着智能手机、穿戴式设备、智能家居和车载设备等的普及,基于智能语音的人机交互技术正越来越引起整个IT学术界及工业界的重视,成为移动互联网领域的绝对热点之一。除了国外的苹果公司的Siri、Google Now、微软必应的语音搜索等产品外,近一两年来,国内也陆续出现讯飞语点、百度语音助手、搜狗语音助手等产品。因为语音交互技术是人类最自然的交流方式,所以让机器能够理解人类的语音已经成为人们的迫切需求。语音识别技术是智能语音产品的一项关键技术。对于这些产品来说,在周边环境比较干净的情况下,语音识别技术往往能够达到实际应用的标准。但是,在周边环境出现噪声干扰的情况下,语音识别技术的效果不令人满意。除此之外,语音中还包含多变的语气、语速、韵律和真实的情绪,以及较严重的协同发音,这都会导致大量的音素级插入、删除和替换现象。因此语音识别系统的鲁棒性问题受到了研究人员的广泛关注。 本文在认真总结了前人研究成果的基础上,对语音识别技术的鲁棒性问题进行了探讨,对与语音识别系统相关的各种特征提取技术进行了详细分析,提出了新的鲁棒性特征提取算法,并从不同的角度,利用模型融合的方法,针对具体任务提出了新的系统框架和模型。进行的主要工作有: (1)研究了语音端点检测算法(Voice Activity Detection,VAD)的噪声鲁棒性。在特征提取方面,实现了基于短时与长时谱特征融合的语音端点检测算法。该算法不但结合了短时谱峰特征鲁棒性较强的优点,而且还考虑了长时谱散度估计特征能够合并语音上下文信息的好处。在分类建模方面,实现了基于支持向量机与隐马尔科夫模型融合的语音端点检测算法。该算法考虑了支持向量机(Support Vector Machine,SVM)具有区分性强以及非线性等优点,以及隐马尔科夫模型(Hidden Markov Model,HMM)能够对上下文关联进行建模的优势。在结合特征与模型的方面,实现了基于融合短时与长时谐波峰的两层区分性权重训练框架的语音端点检测算法。该算法不但结合了短时与长时谐波峰的优势,而且还在一个区分性框架下同时考虑了观测和频点的权重分配问题。在背景噪声干扰的环境下,这三种算法都提高了语音端点检测的性能。 (2)实现了基于语音划分的标准化能量特征提取算法。该算法将语音划分为浊音、清音以及静音,针对不同的语音采用不同的处理方式来提高语音识别的准确率。传统的标准化能量特征提取方法基于噪声平稳的假设。当遇到非平稳噪声时,条件并不满足标准化能量特征提取方法的假设。在这种情况下,标准化能量提取算法的优势就不能够充分发挥出来。因此,本研究提出了应用加权的谐波噪声模型来弥补这一缺陷。同时,该算法也通过VAD排除静音的干扰来分析了在带背景噪声的情况下VAD对于语音识别的性能的影响。通常情况下,如果VAD的性能更好,语音识别的效果也会更好。 (3)实现了基于深度神经网络(Deep Neural Network,DNN)与隐马尔科夫模型融合的面向发音学知识的建模算法。该算法不但利用了DNN所具有的特征学习的能力,而且结合了HMM所具有的建模上下文关联的能力。建立的发音学模型能够在音素网格重打分的过程中提高中文语音识别的性能,词错误率相对下降6.93%。在此基础上,提出了基于谐波谱相关函数的清浊度量特征提取算法,并且使用异方差线性判别分析将提取的清浊度量特征与传统的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCCs)特征进行了合并。合并过后产生的新特征具有更强的区分性,从而进一步提高了语音识别的性能,词错误率相对下降了22.75%。 (4)搭建了一套服务于无人车的交通广播语音识别与抽取系统。该系统包含离线处理和在线实时处理两个部分。离线处理系统包含交通路况信息采集、定时录音、广播音频分割、基于HTK的广播语音识别、交通路况信息抽取等模块,其作用主要是收集交通路况文本和含路况信息的交通广播语音。其中文本语料可用来建立与交通路况领域相关的词典,而交通广播语音语料可用来训练声学模型。在线处理系统包含广播语音播放与波形显示、语音端点检测、基于Kaldi的语音识别、交通路况信息抽取等模块。目前,本系统已经能对交通广播语音中的路况信息进行实时识别与抽取,从而能够为无人车提供路况引导信息,辅助无人车进行智能行驶决策。