论文部分内容阅读
近年来声源定位技术发展迅猛,已经成为声学和阵列信号处理领域的热点问题,其在语音增强、视频会议、鸣笛抓拍、智能机器人、智能家居等领域已经被广泛应用。
声源定位技术是在模拟动物双耳效应的基础上,融合音频信号处理、阵列信号处理、机器学习、数字信号处理等多个学科的一项技术,通过麦克风阵列获取目标声源发出的信息参数,测定声源到麦克风阵列中心的距离以及方向角和俯仰角,实现对目标声源的识别、跟踪与定位。本文以高性能声源定位算法研究为目标,主要完成了如下工作:
(1)分析声源定位的原理。从声波传播模型与阵列接收模型出发,对声源定位进行了详细地分析,为提升声源定位性能提供理论依据。
(2)总结常见应用于声源定位的麦克风阵列的阵型,包括一维均匀线性阵列、二维平面阵列、以及三维立体阵列。对比经典阵型的定位性能,验证在四元十字阵基础上,增加麦克风数量对定位性能的影响。
(3)针对经典的阵列模型存在的问题,本文提出一种新型七元立体阵列模型,推导了模型求解式,并从理论分析与仿真实验两方面验证其性能。且实验结果表明麦克风数量的增加与定位性能的提升并不是线性关系,而是逐渐减慢的,单纯地增加麦克风数量并不会使定位性能大幅度提升。
(4)分析基于机器学习的声源定位算法的基本原理,将三维空间的声源定位由线性回归问题转化为非线性分类问题,极大地减少计算量,降低算法复杂度。
(5)设计并优化适用于解决混响和噪声环境下声源定位问题的卷积神经网络结构模型。实验结果表明,本论文提出的模型能够有效提升算法抗噪声与抗混响性能,且没有大幅增加算法复杂度,具有较高的实用价值。
传统声源定位算法中,时延估计的定位方法计算量小,复杂度低。但其在高混响与低信噪比的环境下,定位性能有待提升,本文通过设计高性能的麦克风阵列阵型以及卷积神经网络结构实现更低的复杂度与更高性能的声源定位。
声源定位技术是在模拟动物双耳效应的基础上,融合音频信号处理、阵列信号处理、机器学习、数字信号处理等多个学科的一项技术,通过麦克风阵列获取目标声源发出的信息参数,测定声源到麦克风阵列中心的距离以及方向角和俯仰角,实现对目标声源的识别、跟踪与定位。本文以高性能声源定位算法研究为目标,主要完成了如下工作:
(1)分析声源定位的原理。从声波传播模型与阵列接收模型出发,对声源定位进行了详细地分析,为提升声源定位性能提供理论依据。
(2)总结常见应用于声源定位的麦克风阵列的阵型,包括一维均匀线性阵列、二维平面阵列、以及三维立体阵列。对比经典阵型的定位性能,验证在四元十字阵基础上,增加麦克风数量对定位性能的影响。
(3)针对经典的阵列模型存在的问题,本文提出一种新型七元立体阵列模型,推导了模型求解式,并从理论分析与仿真实验两方面验证其性能。且实验结果表明麦克风数量的增加与定位性能的提升并不是线性关系,而是逐渐减慢的,单纯地增加麦克风数量并不会使定位性能大幅度提升。
(4)分析基于机器学习的声源定位算法的基本原理,将三维空间的声源定位由线性回归问题转化为非线性分类问题,极大地减少计算量,降低算法复杂度。
(5)设计并优化适用于解决混响和噪声环境下声源定位问题的卷积神经网络结构模型。实验结果表明,本论文提出的模型能够有效提升算法抗噪声与抗混响性能,且没有大幅增加算法复杂度,具有较高的实用价值。
传统声源定位算法中,时延估计的定位方法计算量小,复杂度低。但其在高混响与低信噪比的环境下,定位性能有待提升,本文通过设计高性能的麦克风阵列阵型以及卷积神经网络结构实现更低的复杂度与更高性能的声源定位。