论文部分内容阅读
语音增强技术是语音信号处理中的一项核心技术,广泛应用于多媒体监控、现代通信以及人工智能系统等领域。语音增强技术大致可分为单通道语音增强、多通道语音增强和基于深度学习的语音增强三类。其中多通道的语音增强技术利用语音信号的时域和频域以及麦克风阵列的空间位置等信息对噪声有良好的抑制效果。基于自适应波束成形的语音增强算法是多通道语音增强中的一种重要算法。自适应波束成形算法利用最小均方误差等最优准则计算权值对各阵元加权,以期可以增强目标语音信号,抑制干扰和噪声。本文实现了基于最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)、基于广义旁瓣抵消(Generalized Sidelobe Canceller,GSC)结构以及基于稳健的广义旁瓣抵消(RobustGSC,RGSC)结构的三种自适应波束成形算法,并对此三种算法进行改进。然后运用算法在环境嘈杂的多角度鸡尾酒会实验中进行目标人语音的提取和增强。本文具体的研究内容如下:(1)针对三类语音增强算法进行了详细分析和研究。基于麦克风阵列的近场远场模型以及自适应波束成形的基本架构,进行了语音增强算法的理论建模、软硬件实验平台搭建。提出了针对语音增强效果的主客观结合的综合指标评估模型。(2)针对最小方差无失真响应的自适应波束成形算法,本文引入了波束成形滤波器权值的实时更新自适应调整策略。传统算法的权值是根据语音信号的全部帧信息计算求得,并不能使得每帧的噪声的功率最小。改进后的MVDR权值可以根据一定帧数的语音信息进行自适应更新迭代。实验证明,改进后算法对干扰和噪声的抑制能力得到了有效的提升。(3)在传统广义旁瓣抵消算法和稳健的广义旁瓣抵消算法中,固定波束成形模块对干扰和噪声抑制能力不足。针对这一问题本文提出用权值更新的MVDR算法替代固定成形算法,并结合阻塞矩阵进行噪声的二次估计。实验证明,改进后的算法对比GSC、RobustGSC,对干扰和噪声的抑制能力更强。综上所述,本文实现了基于MVDR、GSC、RobustGSC三种架构的自适应波束成形算法。提出了对三种算法的波束成形权值进行自适应调整,并结合阻塞矩阵进行噪声的二次估计,从而实现对算法的改进。实验结果表明,改进后的算法的语音增强效果得到了有效的提升,对干扰和噪声抑制效果好。