论文部分内容阅读
在人机语音交互的实际应用中,计算机处理的实际信号除了包含目标语音信号以外,还常常包含噪声信号或干扰语音信号或噪声信号与干扰语音信号二者兼有,导致语音识别的可用性急剧降低。该论文开展如何根据人机语音交互的实际应用场景进行语音识别的前端处理研究,使目标语音信号相对于噪声信号和干扰语音信号得到增强,以便改善语音识别在实际应用场景中的可用性。
该论文的创新工作如下:
1、系统地分析了各种基本的麦克风阵列语音增强技术的消噪性能,包括经典的延迟相加波束形成器、自适应波束形成器、后滤波技术等;并对一些最新的麦克风阵列语音增强算法进行了分析,如近场超定向波束形成器、广义奇异值分解结构、传输函数广义旁瓣相消器等,归纳了这些算法和结构的特点及其在实际应用中的局限性。
2、针对人机语音交互实际应用中目标声源和干扰声源的空间分布特性,提出了一种结合维纳后滤波及空间滤波的麦克风阵列语音检测方法,较好地解决了低信噪比和存在干扰语音时的语音检测问题,当目标声源和干扰声源的位置固定,或其位置存在一定的相对移动时,对于信噪比为-5dB、干扰噪声比为-5dB的阵列接收信号,该语音检测算法对目标语音和干扰语音的检测结果正确率分别为87.3%和82.2%,对于干扰语音和目标语音同时存在的情况(SNR=0dB,SIR=-5dB),语音检测结果正确率为89.9%。
3、提出了一种集成维纳滤波的稳健麦克风阵列语音增强结构(RGSC-IW),通过构建一个有效的自适应模式控制器(AMC)来控制广义旁瓣相消器(GSC)的自适应,实验结果表明,当目标声源和干扰声源的位置固定或存在一定的相对移动时,RGSC-IW能够取得与人工自适应广义旁瓣相消器维纳后滤波结构(GSC-PW)相当的噪声抵消量和干扰抵消量,且RGSC-IW增强之后的语音信号失真度更小。
Ⅰ