论文部分内容阅读
语音作为语言的物质外壳和声学表现,是人类最容易获取信息的载体之一,它承载和传达着多方面的信息源,是人机交互和智能通信领域的研究内容之一。语音识别作为具有广阔应用前景和价值的实现智能人机交互的技术之一,主要是达到与计算机进行语音交流的目的。最终让计算机能够将输入的语音信号转变成听得懂的命令。而完整的语音识别系统包含特征提取和模式识别两大模块。其中特征提取作为语音识别的重要组成部分,对系统性能的优劣有较大影响。理想的特征参数应该在复杂环境下都具有较高的稳健性和鲁棒性,而如何从语音信号中提取到能够充分表征其语义信息、削弱说话人个性、易分类且具有稳定性的有效特征参数,进一步提高识别率是语音识别的关键。本文从语音识别的研究现状和背景意义出发,在前人的研究基础上,详细介绍了语音识别和语音特征参数的研究动态,并针对当前语音特征参数中表征语义信息的不完整性,以及在噪声环境下识别性能下降的问题进行研究,从特征提取、特征融合和特征优化三个方面入手,对语音识别系统的不同环节进行深入研究和实验验证。论文的主要研究工作如下:(1)概述了语音识别系统的组成。首先对语音信号的三大数字模型进行介绍,其次,详细阐述了语音识别的基本原理、分类以及系统的性能评价指标;然后针对语音识别系统的三大模块进行详细阐述:语音信号的预处理过程及其操作细节、常见特征参数的提取过程和语音识别分类模型。最后对语音识别技术进行总结。(2)以听觉特征耳蜗滤波倒谱系数(Cochlear Filter Cepstral Coefficients,CFCC)的提取过程为基础,结合瞬时频率信息提取了CFCCIF特征,并采用模拟人耳听觉特性的非线性幂函数提取一种新的耳蜗滤波倒谱系数(New Cochlear Filter Cepstral Coefficients,NCFCC),探讨了不同的非线性变换过程对CFCC特征性能的影响,对NCFCC特征在同一语音库不同信噪比环境下的不同识别效果对其鲁棒性能进行了有效验证。(3)针对语音识别系统在噪声环境下性能下降的问题,基于上述NCFCC特征,在语音信号前端处理中应用增强技术,即将语音增强与特征提取相结合,采用不同的语音增强方法应用于特征提取前端,提出了三种新的鲁棒特征参数,分别是:基于非线性幂函数和谱减法的融合特征(Fusion Feature based on Power-law nonlinearity function and Spectral Subtraction,FFPSS)、基于非线性幂函数和递归最小二乘法的融合特征(Fusion Feature based on Power-law nonlinearity function and Recursive Least Square,FFPRLS)和基于非线性幂函数和最小均方法的融合特征(Fusion Feature based on Power-law nonlinearity function and Least Mean Square,FFPLMS)。验证了语音增强和特征提取相结合的有效性,进而证明基于上述三种特征的语音识别系统的识别率均有所提高。(4)从语音增强的角度出发,分析含噪语音的能量跟踪变换特性,进而提取Teager能量算子倒谱参数(Teager Energy Operators Cepstral Coefficients,TEOCC),针对单一类型特征不足以表征语音信号的完整特性,首先设计实验验证动静态组合特征对单一静态特征的优化作用,然后结合能量特征TEOCC形成融合特征集,验证了能量特征TEOCC可以对人耳听觉倒谱特征起到特征补偿的作用,进而证实了融合特征集能够有效地提高识别网络的鲁棒性能。(5)针对上述融合特征集存在的数据量大和计算复杂度较高的问题,提出了基于主成分分析的特征优化方法。首先设计基于动静态组合特征优化预实验对该方法的可行性进行了验证,然后对加入能量特征的融合特征集进行特征优化识别对比实验,得到优化后的语音特征参数集合,最后针对优化特征集合设计识别对比实验,获得最优特征集合,进而验证了该特征集能进一步提高语音识别系统的识别性能,并证实了特征优化方法的有效性。