论文部分内容阅读
基于麦克风阵列的声源定位和语音增强技术是目前语音信号处理领域的研究热点之一。在视频会议系统,语音识别系统和助听装置等方面,可以通过麦克风阵列声源定位方法来确定说话人的位置。但环境噪声和房间混响的存在将会严重影响现有声源定位方法的性能。本文针对上述问题,研究并实现了一种鲁棒的时延估计方法,并将其与线性定位法相结合,组成一套声源定位系统,可以获得较高的定位精度。将这套系统应用于现有麦克风阵列语音增强方法的前端,与传统的声源定位方法相比,可以更有效地抑制背景噪声和混响,同时提高语音客观质量。本文所构建的基于麦克风阵列的声源定位和语音增强方法主要包含时延估计、声源定位和语音增强三个模块。首先,利用统计模型和传递函数比(AcousticalTransfer Function, ATF)相结合的方法获得两路信号的时延估计值;然后根据所得时延估计,采用线性定位方法确定声源的位置信息;最后,将声源位置输入到语音增强模块中,便可得到增强后的语音信号。本文所提时延估计方法在传统ATF方法基础上进行改进,首先采用最小值控制递归平均(Minima-Controlled RecursiveAveraging, MCRA)方法估计背景噪声,采用加权欧式失真测度(Weighted Euclidean Distortion Measure, WEDM)估计器去除接收信号中的噪声,从而降低噪声对传递函数的影响;而后将两路信号互功率谱的平滑和白化引入ATF方法中,更好的去除混响对传递函数的影响,进一步利用话音激活检测(Voice Activity Detection, VAD)方法去除对求取传递函数无用的噪声段,以提高时延估计的准确性。实验结果显示,在具有强噪声和强混响的复杂环境下本文所提方法具有很好的性能,且明显优于传统的时延估计方法。本文采用经典的——广义旁瓣抵消(Generalized Sidelobe Canceller, GSC)方法作为语音增强模块,并选择三种客观指标,包括分段信噪比(Segmental Signalto Noise Ratio, SegSNR)、对数谱失真(Log-Spectral Distortion, LSD)和语音质量感知评价(Perceptual Evaluation of Speech Quality, PESQ)来评价增强语音的性能。测试结果表明,与传统的ATF和广义互相关函数(Generalized CrossCorrelation, GCC)算法相比,采用本文所提的算法能更准确的提供声源位置信息,并有效提高增强语音的客观质量。