语音识别系统中的VTS特征补偿算法优化

来源 :东南大学 | 被引量 : 4次 | 上传用户:cairaymond
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际环境中,由于环境噪声的干扰,语音识别系统的识别性能并不理想。矢量泰勒级数(VTS:Vector Taylor Series)特征补偿是一种基于模型的特征补偿算法,具有很强的鲁棒性,能够有效解决训练环境与测试环境失配导致的识别性能下降问题。针对VTS计算量大、在低信噪比环境下性能急剧下降的问题,论文将对基于VTS的孤立词识别系统进行优化,主要包括基于双层高斯混合模型(GMM:Gaussian Mixture Model)结构的VTS特征补偿优化,以及针对多环境模型的噪声参数估计的初始值优化,通过优化提高系统的识别速度和识别率,增强语音识别系统的实用性。主要工作如下:(1)鲁棒语音识别系统结构分析。重点分析鲁棒语音识别中的关键技术,包括基于加权子带谱熵的端点检测算法,VTS特征补偿算法,以及声学模型。声学模型包括用于特征补偿的GMM模型和模式识别的隐马尔可夫模型(HMM:Hidden Markov Model).(2)基于双层GMM模型的VTS补偿算法优化。针对VTS特征补偿计算量大的问题,本文提出了双层GMM的VTS算法结构,将特征补偿中的噪声参数估计过程和特征映射过程分开进行。在训练阶段,分别得到高斯单元混合数个数较少的GMM1模型和混合高斯个数较多的GMM2模型。特征补偿过程中,先用GMM1模型估计测试语音中噪声的均值和方差,再利用GMM2模型基于最小均方误差准则,将测试语音的含噪特征参数映射成纯净的语音特征参数。算法优化大幅降低了计算量,同时保持了识别性能。(3)基于多环境模型VTS算法的噪声参数估计初始值优化。基于多环境模型VTS语音识别从基本环境模型集中选出与当前环境最匹配的声学模型,用于特征补偿,能够有效降低训练环境与测试环境之间的失配性。根据最优GMM模型设置噪声参数的初始值,在噪声参数迭代求解过程中可以有效的避免最大期望(EM:Expectation-maximization)算法陷入局部收敛,使得EM算法能够以更少的迭代次数收敛到更为准确的估计值,从而提高语音识别性能。(4)实现了基于MATLAB的离线仿真测试和基于C平台的实时测试。在MATLAB平台和C平台进行大量实验,验证本文所提出优化算法的有效性。实验证明,本文所提出的双层GMM结构优化算法在中文语音库下识别速度提升38%左右,噪声参数估计EM迭代初始值优化算法能够更加准确的估计出噪声参数,从而使系统误识率下降,特别是在低信噪比环境下效果更加明显。
其他文献
新年伊始,梧州港航集团航运分公司抓住货源回升的有利时机,合理调度船舶投入营运,1月份,以156.61%和124.30%分别超额完成了货运量和货运周转量的月度计划,取得了近几年来少有
数据卡作为基于HSDPA技术的终端设备,可以在3G网络覆盖的任意地方接入Internet,是移动通信和互联网技术的完美结合。传统的数据卡语音功能方案存在语音质量低、制造成本高等
随着多媒体技术的发展,视频技术的应用越来越广泛,人们对视频通信的实时性和图像的高分辨率要求越来越高。H.264/AVC作为新一代的视频压缩编码标准支持高分辨率的视频编码,编
无线mesh网络作为一种新型的无线接入网络,因其部署方便快捷、成本低、覆盖范围广、可扩展性强等优点成为近年来的研究热点。随着无线电技术的发展,多射频多信道技术应用到无
波形设计是雷达系统的一个重要研究内容,交替发射正交编码信号是雷达抗干扰的一个重要手段。本论文主要讨论了正交编码信号的优化算法,脉冲压缩旁瓣抑制方法及信号的多普勒预补
数据库系统是当今社会信息存储和处理的核心,其安全性尤为重要。访问控制作为主要的安全策略,是实现较高安全等级数据库管理系统的必要条件。作为实施了强制访问控制策略的多
声矢量传感器能够同时测量声场空间某点处的声压信息和质点振速信息,与传统的声压传感器相比,可以获得声场中更多的信息,有效改善水声系统的性能。矢量传感器及其阵列信号处
基于通信的列车控制(Communications Based Train Control,CBTC)系统,通信协议是整个系统安全的基础,也是各子系统间可靠地进行数据通信的保证。为了保证网络中各实体间能够
随着宽带无线应用的推广,无线资源日趋紧张。如何通过设计合理的资源优化算法实现异构资源的优势互补与协调管理,从而最大化资源利用率,向用户提供具有服务质量(QoS, Quality
正交频分复用(OFDM)技术已广泛应用于多个通信标准,并将成为第四代移动通信(4G)中的关键技术,然而OFDM系统对同步偏差是十分敏感的,这就对同步算法提出了很高的要求。大部分