论文部分内容阅读
在不利的声学环境下,语音通信系统的性能受到严重的影响。噪声的存在会降低语音质量与语音可懂度。这也使得语音通信系统的在现实环境下的应用受到了限制。因此,语音增强技术对于提升语音通信系统的性能十分重要。依据算法对语音信号处理方式的不同,语音增强算法可以分为两类:时域语音增强算法和变换域语音增强算法。本文从这个角度,全面回顾了经典的语音增强算法。时域语音增强算法多利用语音信号的短时平稳性等特点来对噪声进行抑制。变换域的语音增强算法依赖于特定的变换,例如离散傅立叶变换(Discrete Fourier Transform, DFT)、离散余弦变换(Discrete Cosine Transform, DCT)等。通过这些变换,语音与噪声能够更好地被区分。本文详细介绍了谱减法、基于最小均方差(Minimum Mean-Square Error, MMSE)短时幅度谱估计法(Short Time Spectral Amplitude, STSA)等变换域的语音增强算法,并讨论了各种语音增强算法的优点和缺点。语音信号可以被分解成调制信号和载波信号。研究表明,语音信息的主要载体是调制信号。为了对语音的调制信号进行处理来提高含噪语音质量,本文提出了一种基于调制滤波的语音质量增强算法。调制滤波首先利用一个滤波器组将语音信号分解成各个子频带信号;其次,利用包络检波技术对各个子频带信号的调制信号进行估计;最后对子频带调制信号进行频率分析。本文在具体实现时使用短时傅立叶变换对语音信号的频带进行等分,采用各个子频带信号的幅度值作为调制信号;最后,利用傅立叶变换对调制信号进行频率分析。在对信号进行频率分析时,采用谱减法作为滤波技术,产生了调制谱减法。实验结果表明,调制谱减法能够有效地减小背景噪声,并能抑制音乐噪声。大部分语音增强算法能够提高含噪语音的质量,但是却不能提高含噪语音的可懂度。语音增强算法对语音进行处理会引入语音畸变。当增强语音的幅度谱大于纯净语音的幅度谱时,增强语音具有放大畸变;当增强语音的幅度谱小于纯净语音的幅度谱时,增强语音具有衰减畸变。经典语音增强算法尽量减小纯净语音与增强语音之间的总畸变。但不同类型的语音畸变对于语音可懂度的影响是不同的。未区分语音畸变的类型是大部分语音增强算法无法提高含噪语音可懂度的一个重要原因。为了提高含噪语音的可懂度,本文提出一种基于畸变控制的语音可懂度增强算法。利用含噪语音的先验信噪比和经典算法的增益函数来估计语音的频域信号畸变比(Signal Distortion Ratio, SDR),根据SDR的值判断产生语音畸变的类型。最后,通过调整经典算法的增益函数对损害语音可懂度的畸变进行控制。实验表明,基于畸变控制的语音可懂度增强算法能够可观地提高含噪语音的可懂度。