论文部分内容阅读
声源定位技术作为一门新兴的边缘交叉学科,在视频会议、语音增强、语音识别、机器人听觉等方面有广泛的应用。目前主要的声源定位算法包括麦克风阵列声源定位算法和基于双通路的声源定位算法。基于双通路声信号的声源定位方法模拟人耳的听觉特征,可以实现较为准确的声源定位。最具有代表性的是基于互相关函数的耳间时间差ITD(Interaural Time Difference)估计,然而实际环境下的噪声和混响,会严重影响基于互相关函数的声源定位性能。所以目前双耳声源定位的研究仍有许多问题亟待解决,例如听觉方位特征参数的提取与建模、噪声与混响对定位性能的影响。
本论文的主要内容有:
1.概述了声源定位的研究背景、主要研究方法,介绍了双耳声源定位算法的理论并对现有的声源定位方法进行比较和总结。
2.提出了基于ITD、IID联合判决的定位方法,实现了水平面360°的定位,仿真测试和实际测量均说明了算法的有效性和可靠性。本论文针对传统方案的不足,对传统定位线索的提取过程进行改进。提取双耳声信号的ITD和IID参数,将均值作为声源方位的定位特征线索,建立方位映射模型。定位时,分别计算双声道信号的ITD和IID,并且利用ITD和IID特征联合判决的定位方法,解决了单纯ITD定位时存在“前后混淆”现象。
3.提出了基于子带信噪比估计的定位方法,将各方位耳间时间差ITD的均值作为声源方位的定位特征线索,建立方位映射模型。实际声源定位时,输入为双通路声信号,输入声信号先经过短时傅里叶变换,在频域划分若干子带,在各子带内进行信噪比估计,根据子带信噪比,选择相应子带的功率谱计算各帧的ITD参数,根据ITD特征参数与训练模块建立的方位特征模型进行逐一匹配,基于欧氏距离测度,输出方位。
本论文分别对HRTF数据库生成的虚拟声以及消声室环境下的采集声进行了定位测试和性能分析,仿真结果表明,基于ITD和IID联合判决的定位系统可以实现水平面360°定位。基于子带信噪比估计的双耳声源定位方法对声源类型和噪声有较强的鲁棒性,有效地提高了定位系统的性能。