论文部分内容阅读
语音增强是语音信号处理领域目前最具挑战性的任务之一。随着智能终端设备涌入人们的生活,传统语音增强方法的性能已经无法满足人们的需求。传统方法大多基于无监督学习,利用非语音段估计噪声,并将估计出的噪声从语音段中减去。现实生活中的噪声充满了随机性,传统方法作出的一些假设往往不符合实际噪声场景。传统的增强方法存在残留音乐噪声、破坏语音信号、抑制非平稳噪声能力差等问题,这些问题使其难以广泛应用于实际噪声场景中。近些年,深度神经网络因为计算能力的提升以及数据量的积累,在图像和语音领域取得了较好的效果,为其在语音增强任务上的发展奠定了基础。DNN增强方法基于大量的成对训练语料进行训练,它对时间依赖性问题不敏感,而CNN方法通过卷积的方式保证了时间和频率维度的依赖关系。本文基于CNN网络展开对语音增强性能提升的一系列研究。首先,介绍最广泛的加性噪声模型,并针对此类噪声提出基于对数幅度谱掩蔽的编解码CNN语音增强方法,以带噪语音和干净语音的对数幅度谱作为网络的输入和标注数据。网络通过预测对数掩蔽的方式估计干净语音信号对数幅度谱,这种方式既能够利用时间依赖信息,又能学习到输入输出之间复杂的非线性关系。其次,基于对数幅度谱的方法忽略了相位因素对恢复时域信号的影响,通过实部谱和虚部谱的处理方式,间接的恢复出相位信息。由于实部谱和虚部谱难以直接进行训练,提出压缩的实部和虚部掩蔽特征和对数幅度谱作为多输入特征,以单任务和多任务方式对网络进行训练。此外,直接利用网络进行语音增强,虽然能够明显的消除背景噪声,但是会对语音段造成损伤,使其在听感上不舒服。因此,提出共享增强网络的训练方式,在保证降噪能力的同时,解决增强网络对语音信号的损伤问题。最后,针对上文所提到的语音增强方法,搭建了一套训练和推理的软件框架,并将训练过程运行于带有显卡的服务器端,将推理过程移植到树莓派嵌入式平台上。