论文部分内容阅读
语音是人机交互中最自然的方式,既不需要接触或佩戴数据设备,也不存在视觉盲点。在基于语音的人机交互系统中,由于噪声的影响,特别是交互环境中其他无关说话人语音的干扰,严重降低了交互系统的性能。本文对人机交互系统语音信号信噪比的提高展开研究。交互目标声源的定位是基于麦克风阵列的多通道语音增强法的关键,本文采用基于时延估计的声源定位方法。针对信号时延估计问题,采用先通过适当阈值过滤噪声再做相关处理的方式,提出一种基于阈值判决的声达时延差估计方法。仿真实验表明该方法优于广义互相关法,为进一步目标声源的空间定位提供更加准确的时延参数。为更好地模拟实际声源所在的空间场景,基于麦克风线性均匀阵列,采用双阵列空间三维定位的方法,提出了一种由六个麦克风构成的平行均匀线阵接收模型。结合基于阈值判决的声达时延差估计方法实现目标声源的三维定位。在目标声源的定位基础上,通过波束形成法来增强目标语音。并对固定波束形成法中各通道的权重设置提出改进方案,更好地实现目标语音的增强。本文通过MATLAB对所提出的算法进行了详细地仿真实验,结果表明环境信噪比大于1.5dB时,目标声源的定位精度即可达到98%以上,信噪比达到5dB左右的改善。同时算法使用的麦克风数较少,原理简单、易于硬件实现。