鲁棒语音识别中的特征补偿与模型自适应算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:xhbing520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际应用中,由于测试环境与训练环境不匹配,语音识别系统的识别性能可能会急剧恶化。外部环境因素的影响和语音本身的变异性是导致环境失配的主要原因。本文从前端特征域和后端模型域两个方面,研究语音识别系统的声学与环境鲁棒问题,减小环境噪声、说话人的改变和其它语音变异性对语音识别系统的影响,提高语音识别系统在实际环境中的识别性能。   本文的研究工作主要包括:   (1)提出了一种基于隐马尔可夫模型(HMM)和并行模型组合(PMC)的特征补偿算法。该算法用一个包含较多状态的遍历结构HMM取代传统特征补偿算法中的高斯混合模型(GMM),来描述整个语音特征空间的概率分布;然后,用PMC方法调整该HMM的均值向量和协方差矩阵;最后,用最小均方误差(MMSE)方法,估计纯净语音特征向量。该算法在纯净语音特征估计时,考虑了同一单词样本内部不同特征向量之间的时变关系,因此取得了更好的补偿效果,识别性能明显优于基于GMM的特征补偿算法。   (2)深入研究了基于矢量泰勒级数(VTS)的特征补偿和模型自适应算法。首先根据倒谱域特征向量各维系数之间相关性较小且将多个高斯单元的数据合并估计噪声方差时加权因子对未知的噪声方差不敏感的特点,提出了一种具有快速收敛特性的方差估计方法,较好地解决了VTS算法的方差估计问题。然后,用遍历结构HMM取代GMM,估计纯净语音特征向量,进一步提高了特征补偿的精度。实验结果表明,用HMM进行特征补偿,其识别性能可接近后端模型自适应算法,且具有计算量较小、受状态数目的影响较小等优点,可以在识别率和计算量之间取得较好的平衡。最后,将所提算法从特征空间扩展到模型空间,给出了动态噪声参数的估计公式。从而将声学模型的动态参数和静态参数变换到测试环境,对含噪语音进行识别。   (3)在低信噪比环境下,含噪语音与纯净语音之间的差异较大,通过变换纯净语音声学模型得到的含噪语音声学模型不能很好地描述含噪语音分布。为了进一步提高低信噪比环境下的识别性能,提出了基于矢量泰勒级数的多环境模型自适应算法,用多个基本训练环境预测实际测试环境,并通过含噪测试语音与含噪训练语音之间的矢量泰勒级数关系式,将选取的基本环境声学模型的参数变换到测试环境。实验结果表明,该算法可以进一步提高较低信噪比时语音识别系统的识别性能,优于传统模型自适应算法和基于线性变换的多环境方法。   (4)为了解决基于变换的模型自适应算法中的线性假设问题,将多项式回归方法用于模型自适应,构建了基于最大似然多项式回归的非线性模型自适应算法。该算法在对数谱域的每个Mel通道上,用多项式回归逼近测试环境模型均值与训练环境模型均值之间的非线性关系。多项式系数通过EM算法和最大似然准则,从测试环境下的少量自适应数据中估计。该算法较好地克服了线性假设的缺陷,可同时减小环境噪声、说话人的改变或其它变异性因素对语音识别系统的影响,在噪声补偿和说话人自适应中识别性能均优于传统线性回归算法。   (5)研究了基于变换的模型自适应中的数据稀疏问题,提出了基于子带回归的模型自适应算法。该算法考虑了Mel滤波器组相邻通道之间的相关性,将全部通道划分为若干个子带,假设每个子带内多个通道的模型均值分量共享一个多项式回归环境变换关系,从而进一步增加可用的数据。该算法可以较好地克服数据稀疏问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数据时的快速模型自适应。
其他文献
海量数据的实时三维绘制技术一直是计算机图形学领域的热点问题之一,它在地理信息系统、游戏、军事仿真等领域有重要的作用。虽然目前计算机图形显示技术及其它计算机硬件技
我国北方干旱地区的侏罗纪煤层自燃现象十分严重,浪费了大量有限的煤炭资源,造成了很大的环境污染。因此对易发生自燃煤田区进行实时有效地监测,及时掌握煤田区的环境数据,才
近年来,随着互联网和多媒体技术的蓬勃发展,计算机视觉和视频图像处理也逐渐得到了更广泛的应用。目标检测技术作为其中一项应用价值颇高的分支,一直在计算机视觉领域里倍受
随着计算机技术的发展,图像处理、机器视觉等技术在自动检测、智能分析等方面得到了更广泛的应用。对于检测系统的体积、功能和灵活性方面,大部分现场提出了新的要求。针对自
针对现有网络在资源利用率、能耗、网络安全、可拓展性等方面的弊端,北京交通大学下一代互联网互联设备国家工程实验室提出了能够实现资源动态适配的智慧协同网络体系。随着
静止和活动图像的数据统计特性有很大区别,以往都是分别针对静止和活动图像研究不同的图像压缩方法以期获得最优的压缩效果,目前已分别形成了独立的国际标准JPEG2000和H.264
随着网络规模的快速增长、网络结构的日益复杂,现有的网络暴露出越来越多的问题:QOS难以很好解决、扩展性不好、安全性差等。同时,人们对于现有网络越来越高的要求也推动了各
为了满足铁路运输向高速化、信息化、智能化方向发展的需求,铁路通信技术也需要向数字化、无线移动化、综合业务化及宽带化方向发展。目前我国铁路系统正在使用基于2G(2rd Ge
无线通信技术、嵌入式技术和数据处理技术的发展,正推动着无线网络及其应用的高速发展。今天,无线网络已经成为人们生活中不可缺少的一部分。然而安全问题却一直制约着网络的
近年来随着移动通信技术和通信网络的快速发展,大容量的智能移动终端设备在全球范围内的普及率越来越高,其广泛应用推动了分布式移动社交网络的诞生。然而,由于移动社交网络