论文部分内容阅读
作为语言符号系统的载体,语音是人类表达思想和情感的重要工具之一。然而,现实生产生活中无处不在的干扰和噪声使得语音信号经常受到污染,导致语音的质量和可懂度降低,引起人类主观听觉感受的不适,也给语音识别等后端应用带来了挑战。因此,语音增强一直都是语音信号处理领域的一个重要课题,它被具体定义为干净语音在受到来自各种噪声干扰时,利用一定的技术手段抑制和消除噪声,以提升该段语音的质量和可理解性。自20世纪70年代以来,研究学者就开始致力于单通道语音增强算法的研究,相继提出了谱减法、基于统计模型的算法和子空间算法等传统语音增强算法,但这类算法通常需要对语音信号和噪声各自的特性以及彼此是否相关等方面做出一定的前提假设,使其增强性能受到了限制。尤其是在处理非平稳噪声的情况下,往往会引入一些非线性的失真,影响语音的听觉感受以及后端的语音识别编码等处理。近些年来随着科技的进步,语音数据的采集变得快捷方便,基于数据驱动的有监督语音增强算法也应运而生。这类算法的核心思想是通过模型挖掘训练数据的特征和性质,无需依赖任何前提假设,使得这类方法能够适用于相对复杂的声学环境。基于此,本文结合近些年迅速发展的稀疏表示理论和深度学习方法,针对单通道语音增强的有监督算法进行了研究,主要的研究工作如下:首先,在基于互补联合字典学习和稀疏表示的增强算法的基础上进一步考虑在两种噪声共存的嘈杂环境下的语音增强任务。在字典学习阶段,用带噪语音到语音、噪声之间的映射关系约束联合字典的学习,使得字典原子不仅挖掘出信号的谱特征,同时也表征了信号之间的映射关系,丰富了字典的完备性并增强了字典之间的区分性,缓解源混淆和源失真问题。在增强阶段,考虑到在不同条件下各路稀疏表示恢复得到的信号的有效性存在差异,基于估计信号中的归一化残余混淆成分设计加权权重,进行多路估计信号的融合,以进一步提升语音增强的效果。其次,目前大部分的深度学习算法采用的都是频域特征,如短时傅里叶变换幅度谱或者是对数功率谱,而增强语音的相位则由带噪语音的相位来代替,使得增强语音中相位和幅度存在一定的不匹配,导致“不一致语谱”问题。然而与时域采样点相比,时频点能够反映出语音信号在相应频率分量上的能量,而且语音的谐波特征和共振峰等特性在时频域上往往更加明显。针对这一问题,本文提出了基于全卷积网络的端到端单通道语音增强算法,网络模型主要由编码器和解码器构成,但在编码器的输入端和解码器的输出端分别加入了基于卷积层设计的伪傅里叶变换层和伪逆傅里叶变换层,从而引入频域信息以便于网络更好地挖掘语音的特性。此外,采用带门限控制的卷积层搭建编码器和解码器以扩大感受野并更好地控制信息在层次结构中的传递,在编码器和解码器中间加入时域卷积模块以更好地学习语音的长时记忆性。此外,由于提出的端到端模型能够直接以整条语句为单位进行语音增强,所以采用了不同的基于语句的优化目标来训练提出的网络,以此探究代价函数对增强性能的影响。