论文部分内容阅读
语音信号在传输过程中会不可避免地被噪声和混响等干扰因素污染,在到达接收端后将严重降低语音信号的听觉感知质量和可理解程度,不利于高效的交互交流。为了解决上述问题,语音增强技术应运而生,该技术是声源分离技术的一种特殊情况,旨在净化、恢复被各种环境干扰所破坏的语音信号,在智能家居、即时通讯以及远程会议等领域都有着十分广泛的应用。本文主要研究基于神经网络的语音增强算法,通过深入分析近年来本领域的相关研究成果,发现多数研究工作主要聚焦于加性噪声条件下的语音增强问题,而对极低信噪比、乘性混响等复杂环境下的语音增强研究相对较少;此外,对神经网络损失函数的设计没有考虑到人耳的听觉感知特性,对语音增强任务不具有强针对性,这限制了模型的学习能力和干扰抑制水平,加大了恢复干净语音的难度。卷积时域语音分离网络(Convolutional Time-domain audio separation Network)作为一种新兴的模型结构在语音声源分离任务中取得了良好的效果,本文将以Conv Tas Net神经网络为基础,研究复杂环境下的语音增强和干扰抑制问题。本文的主要研究内容有以下几个方面:1、提出了一种基于挤压膨胀注意力的卷积时域语音分离网络(SqueezeExpand Conv Tas Net)模型,对原生Conv Tas Net模型中的残差块进行改良,去除了其中的跳跃连接结构,使用挤压膨胀注意力机制对通道显式建模,改双重连接机制为单残差连接。一方面降低了模型的神经元参数量,另一方面也提高了模型的噪声去除能力。此外,本文使用门控卷积配合PRe LU激活函数形成掩蔽,独立地为输出特征空间上的任意一点生成权重,解决了Conv Tas Net输出模块存在的数值饱和问题。最后,本文采用了一种尺度不变的均方误差损失函数,有效地保障了损失函数的计算不受幅度变换的影响,可以更加准确地反映估计语音与纯净语音之间的差异。实验结果表明,本文提出的SEConv Tas Net相比于原生的Conv Tas Net在感知评估语音质量指标上提升了5.66%,在尺度不变信噪比指标上提升了5.34%。2、针对噪声和混响同时存在的复杂背景环境,提出了基于挤压膨胀注意力与Transfomer模块的卷积时域语音分离网络(Squeeze-Expand Conv Tas NetTransfomer)模型,在SEConv Tas Net基础上加入了基于自注意力机制驱动的Transfomer模块以提高模型的语音重建精度,解决了复杂环境特别是混响抑制场景下对输入语音序列的长期依赖性建模问题。实验结果表明,SEConv Tas Net-T相比SEConv Tas Net在感知评估语音质量和短时客观可懂度指标上分别提升了5.19%和1.49%。此外,本文在实验中发现,单纯的时域模型配合时域优化目标虽然可以在多数时域指标上取得客观的语音质量优化,但是其往往会忽略掉语音的高频率成分,导致其客观可懂度下降,因此本文将尺度不变的均方误差损失函数与更符合人耳听觉特性的梅尔频谱结合作为SEConv Tas Net的时频混合损失。实验结果表明,模型在感知评估语音质量和短时客观可懂度指标上分别提升了4.1%和0.39%。