论文部分内容阅读
语音作为语言的声学表现,是人类信息交流最自然、最有效的手段之一。语音技术已广泛应用于耳机通话、手机通讯以及智能家居设备等日常生活中。在现实环境中,人或机器在获取语音信号的同时,会不可避免地受到各种噪声的干扰,这些干扰使接收到的语音并非纯净的原始语音,而是受噪声污染的带噪语音。在语音通讯等场景中,麦克风采集到的语音主要受环境噪声、房间混响以及其他说话人三种因素的干扰。语音增强的目的是消除这三种干扰因素的影响,获得干净的语音信号。由于现实环境复杂,基于统计和规则的传统算法难以应对真实场景的挑战。在过去的几年中,深度学习迅速发展。深度学习方法将语音增强问题转换为数据驱动的机器学习问题,与传统算法相比,性能获得了大幅提升。本文主要研究基于深度学习的语音增强方法,探索将语音信号处理知识和深度学习技术相结合的途径。信噪比反映了语音受噪声干扰的程度,是带噪语音的重要参数,准确的信噪比估计有助于更好地完成语音增强任务,因此本文首先提出了一种信噪比估计方法。之后,分别针对三种主要的干扰因素,研究了对抗环境噪声、房间混响以及其他说话人干扰的方法。本文的研究内容与创新点主要围绕以下几个方面:(1)信噪比估计。针对信噪比估计问题,本文首先对常见的18种声学特征进行分析,然后使用Group Least Absolute Shrinkage and Selection Operator(Group Lasso)算法和顺序浮动前向搜索算法(Sequential Forward Floating Search,SFFS)选择出更优的特征组合,使信噪比估计性能进一步提升。(2)语音降噪。针对环境噪声场景,提出了联合波束形成和深度学习的双麦克风语音降噪算法。通过分析双麦克风语音增强的不同输入特征,发现基于两个反向差分麦克风阵列(Differantial Microphone Array,DMA)的特征具有方便计算、反映频谱信息和频率不变等优点。尤其在麦克风间距很近的情况下,差分阵列的频率不变特性可以把不同频带之间的不同相位差信息转化成相同的幅度差信息。最终将提取的特征作为深度神经网络的输入,与基线系统相比,降噪性能得到了显著提升。(3)混响消除。针对混响场景,提出了一种噪声鲁棒性混响消除算法,该算法联合了传统信号处理中的权重预测误差算法(Weighted Prediction Error,WPE)和深度学习技术。同时,考虑到真实场景中存在噪声干扰,并且语音和噪声具有不同的传播路径,以及语音的稀疏特性等因素,提出采用双滤波器策略进行混响消除,达到了噪声鲁棒性混响消除的目的。(4)目标说话人分离。针对说话人干扰场景,提出了基于动态注意力机制的目标说话人分离算法。通过分析以锚语音(Anchor Speech)为线索的目标说话人分离问题,引入了动态注意力机制(Dynamic Attention)来更有效地捕捉锚语音中包含的目标说话人信息。该机制在基于编码器-解码器(EncoderDecoder)模型框架的基础上,提升了目标说话人分离的性能。