论文部分内容阅读
随着计算机的便携化以及随身数码设备功能的多元化,人们越来越迫切的要求摆脱传统输入设备(键盘、鼠标等)的束缚,代之以更加便于使用的、自然的、人性化的输入方式。语音信号处理的应用环境也随之越来越复杂。随着人们对自然、高效的人机交互方式的渴求,语音技术的大规模实用化成为越来越紧迫的任务,而语音识别在近年来的快速发展也使得这一切成为可能。但是,实际环境的复杂多变对语音识别系统的鲁棒性提出了很大的挑战。如何减弱或去除噪声对语音识别系统的负面影响成为了研究的热点之一。
传统的单通道算法由于只能利用时/频域信息,大多只对平稳或准平稳噪声有一定的抑制和消除作用。而当非平稳噪声存在或信噪比较低时,该类算法往往不能作出有效的贡献。另外,有研究显示,在大多数情形下,单通道噪声消除算法并不能提高语音识别率。而传声器阵列技术与单通道方法相比,其优势在于除了时、频域信息外,还能提供空间上的区分度。包含传声器阵列的语音识别器,在很多应用场合得到了积极的结果。
典型的实用语音识别系统大致可分为语音信号采集、语音活动性检测、特征提取及解码等步骤,同时还可能需要对声学回波具有抑制作用。而传声器阵列技术可以在以上很多环节中起到积极的作用。本文将深入研究基于传声器阵列的语音识别系统的各个组成部分,分析其原理及关键技术,致力于将传声器阵列技术与语音识别系统紧密地结合起来,尽可能发挥传声器阵列在语音识别系统中的作用,主要研究工作及创新点包括:
1.研究了波束和零限波束形成算法,以及传声器阵列后滤波算法,提出了基于听觉感知子带的频域自适应零限波束形成算法,及其与后滤波算法的融合系统。该算法使用较小的阵列孔径及较少的阵元个数,收到了较强噪声抑制能力,并很好地保持了输出语音的质量。
2.研究了传声器阵列与自适应回波抵消的结合方法,开发出一套适用于车载平台的传声器阵列语音前端系统,在实际场景中,大幅提高了信噪比和语音识别率。
3.提出了一种基于信号波达角同一性的用于语音活动性检测(VAD)的特征,并以此特征为基础,构建了VAD算法。该算法对非方向性噪声和目标区域外的方向性噪声、甚至是高强度干扰语音有较强的区分能力,弥补了传统单通道VAD算法的不足。
4.提出了一种服务于语音识别的基于传声器阵列的特征增强系统,将噪声消除引入至MFCC特征域。该算法不需要关于噪声和声场的先验知识,在非平稳噪声存在的情况下,提高了识别率。