基于深度学习的语音增强算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:ustczl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强作为语音信号处理的一个重要分支,在语音通信、听觉辅助、自动语音识别(Automatic Speech Recognition,ASR)系统前端等领域都有重要的应用。早期提出的一些传统单通道语音增强方法,虽然计算简单,但是降噪效果不佳,尤其是对非平稳噪声。近些年兴起的深度学习算法大大提升了单通道语音增强的性能水平。然而,基于深度学习的语音增强模型往往难以有效地泛化到现实场景中。此外,在移动或穿戴式设备上实时地进行降噪处理也是当今的一个重要应用方向,但是计算密集型的深度学习模型难以部署到这些资源十分有限的设备上。本文在已有的工作基础上,研究了基于深度学习的单通道语音增强算法。我们在追求高性能的同时,致力于保持足够低的计算复杂度和时延,以满足端上的实时要求。本文的主要工作和创新点如下:(1)首先概述了语音增强的研究背景与意义,回顾了单通道语音增强的发展历史和研究现状。然后重点研究了三种常见的传统单通道语音增强算法,包括谱减法,维纳滤波法,以及基于最小均方误差(Minimum Mean Square Error,MMSE)的幅度谱和对数幅度谱估计方法,其中一种基于先验信噪比(Signal-to-Noise Ratio,SNR)的维纳滤波法被用作本文实验的基线算法。最后详细介绍了有监督语音增强中的特征提取和训练目标,为本文的研究工作打下基础。(2)通过在LSTM中引入自注意力提出了一种新的RNN结构,称为Attention LSTM。Attention LSTM将LSTM中的输入门和遗忘门替换为注意力门,注意力门决定保留多少上一时刻的单元状态,而它仅根据上一时刻的单元状态计算得到,这是Attention LSTM的自注意力机制的本质所在。在一个基于RNN的实时单通道语音增强模型RNNoise的基础上,使用了一种结合通道间相关性(Inter-Channel Correlation,ICC)的新型比值掩膜作为训练目标。在ICASSP 2021深度噪声抑制(Deep Noise Suppression,DNS)挑战赛所提供的数据集上的实验表明,RNNoise的增强性能显著优于维纳滤波算法,PESQ提升了0.2;而这种新型比值掩膜能够进一步提升模型的性能。此外,Attention LSTM以更低的复杂度实现了与LSTM和GRU相当的性能。(3)提出了一种特征独立的卷积,称为空间可变卷积(Spatially Variant Convolution,SVConv),其核心思想是对每个输出的特征维学习一个不同的卷积核。为了更灵活地控制参数量,又提出了分组的空间可变卷积,其思想是输出特征图中相邻的特征维共享一个卷积核。首先分别以复值理想比值掩膜和实值理想比值掩膜为目标训练了一个基于U-Net的复数域全卷积网络DCUNet和其实数域版本DUNet,实验结果表明DUNet的整体表现优于DCUNet。然后在DUNet基础上采用了Mobile Nets的深度可分离卷积(Depth-wise Separable Convolution,Mobile Conv),它将标准卷积分解成depth-wise卷积和1×1的point-wise卷积,实验结果表明深度可分离卷积在降低计算复杂度的同时导致性能显著下降。随后结合了深度可分离卷积和空间可变卷积,实验结果表明结合这两种卷积结构能够在保持低计算量的同时改善网络的性能。最后在DUNet基础上引入了注意力机制,即在encoder和decoder之间插入一个注意力层,实验结果验证了结合U-Net架构和注意力的有效性。(4)提出了两个新型的基于CRN的单通道语音增强模型:一个是基于比值掩膜的CRN(CRN-RM),它在DUNet基础上结合了GRU;另一个是基于Encoder-Generator架构的CRN(EG-CRN),它将U-Net的decoder替换为由循环层和全连接层构成的generator。实验结果表明,CRN-RM以更少的参数实现了显著优于DUNet的增强性能,验证了CRN架构的有效性;与已提出的一个基于幅度谱映射的CRN(CRN-MM)和一个复数域的CRN(DCCRN)相比,CRN-RM的整体性能优于CRN-MM,次于DCCRN,但其计算量仅为DCCRN的1.5%;相比于CRN-RM,EG-CRN进一步降低了计算复杂度,但性能并没有明显下降。
其他文献
随着移动互联网技术的发展、智能移动终端的普及和移动应用的多样化,蜂窝网络中的数据流量呈指数增长,用户对频谱的需求与日俱增。运营商需要提供更大的频谱带宽来提高蜂窝系统的容量,满足用户的多样化服务需求。由于非授权频段存在大量可用的频谱资源未得到充分利用,3GPP提出了非授权频段LTE(LTE-Unlicensed)技术,以提供额外的频谱带宽,改善未来蜂窝网络的容量。然而,LTE-U系统和非授权频段上主
随着第五代(5th Generation,5G)移动通信系统商用部署步入关键阶段,主要核心使能技术的优缺点日益显露。考虑到移动数据流量爆炸式增长以及业务多样化的需求,全球无线研发界已经开始5G之后(Beyond 5G,B5G)乃至第六代(6th Generation,6G)移动通信系统的布局和建设。在B5G和6G的诸多潜在关键技术中,利用人工智能(Artificial Intelligence,A
随着用户设备(User Equipment,UE)和移动流量的迅猛增长,无线通信网络面临越来越大的流量压力。在雾无线接入网络(Fog Radio Access Networks,F-RANs)中,由于雾接入点(Fog Access Point,F-AP)具备边缘缓存和边缘计算的能力,因此部分UE的请求可以在本地F-AP中处理。UE不再需要通过远程服务器获取文件,大大降低了服务的时延和前传链路功耗。
随着物联网技术的不断发展,基于物联网技术的系统被越来越多地应用到了智慧消防领域中。而其中,新兴的窄带物联网(Narrow Band Internet of Things,NB-IoT)技术因其覆盖范围广、容量大、成本低等优势,而备受青睐。传统的智慧消防系统中,大多通过传输传感器的参数并以此进行判别,有着精度低、时效性差等问题,而有的系统则将视频图像通过网络传输到后台进行统一的处理、判别,则有着传输
动态心电(Electrocardiogram,ECG)连续监测是实现心血管疾病早期检测的有效手段,心率(Heart Rate,HR)是心电信号中反映人体心脏搏动状况的重要生理指标,更是心血管疾病评估和诊断的重要基础。然而,动态心电信号中存在大量噪声,心率标注算法易受到信号噪声、个体差异等因素的影响,这使得动态心率估计的可靠性大大降低,造成心率的错误估计,从而影响病人的治疗时机或引起监护人员的警报疲
学位
人和机器人共融的核心是自然人机交互。基于运动想象脑电、稳态视觉诱发电位及事件相关电位的智能假肢、外骨骼机器人和康复机器人等BCI系统在残障人士的生活辅助和运动功能康复等方面取得了一定的研究成果,然而,这些技术仍存在脑机交互不自然的问题,如利用脚部的运动想象来控制神经假肢的功能。实现自然且直观的脑机接口控制可促进用户和BCI系统的共同演化过程,使得用户积极参与并改善康复效果。基于脑电的自然动作解码为
随着移动互联和数字图像处理技术的不断发展,获得数字图像的成本不断降低,同时先进的图像处理工具使得对图像进行操作变得易如反掌。图像操纵可以轻易地实现诸如对象复制、拼接以及删除的操作,被恶意利用产生的篡改图像则可能给社会带来负面影响,误导大众。由于在视觉上可能无法分辨被操纵的区域,如何防范这些篡改图像则是一项艰巨的任务。现阶段已经有了很多针对图像篡改的检测算法,但这些方法大多需要手工特征提取,往往使用
智能通信作为未来通信技术发展的主流研究方向之一,在5G(5th Generation Mobile Communication Systems)加速普及的当下,具有重要的研究价值。智能通信引入人工智能(Artificial Intelligence,AI)技术解决通信难题,例如在物理层的信道估计、信号检测与信道译码等研究问题中,AI辅助的算法设计能够达到甚至超越传统算法性能,展示出巨大研究价值。智
随着物联网技术的蓬勃发展,大量智能终端的应用对未来的无线通信系统提出了支持海量设备同时可靠接入的需求。免调度无线接入系统中,用户终端可以自发向基站发送数据,不需要向基站发起调度请求,从而减少信令开销,降低传输延时和智能设备功耗。这些优势使免调度无线接入技术成为了大规模机器类型通信(massive Machine Type Communications,m MTC)场景下的关键技术之一。然而,由于基