基于深度卷积生成对抗网络的语音增强方法研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:asdf8865
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人与人之间交流的重要方式,但在现实中语音通常受到噪声的干扰,因此从嘈杂的环境中提取近似纯净的语音成为研究重点。语音增强是语音信号处理的重要领域,用以解决语音降噪问题,并已应用于通信等领域。传统的基于统计模型的语音增强方法,需要先假设语音和噪声服从某种分布,估计出噪声的能量信息,但噪声具有多样性与不稳定性,导致语音降噪不彻底,存在残留噪声或音乐噪声现象,因此并不理想。随着深度学习的兴起,各种神经网络模型能够很好的学习数据间的非线性关系应用于诸多领域,其中生成对抗网络(Generative Adversarial Networks,GAN)从提出以来已经成为最受欢迎的网络模型,并在图像处理方面取得了很好的效果,但应用于语音增强处于初级阶段。基于普通神经网络的语音增强方法往往忽略了相位的问题,而基于生成对抗网络的语音增强方法虽然减弱了噪声,但降噪后的语音往往会丢失部分信息,高频部分恢复能力较低,同时语音的可懂度及降噪能力有待提升,导致降噪效果仍然不太理想。为了解决上述问题,提高降噪效果,本文提出了基于深度卷积生成对抗网络(Deep Convolution Generative Adversarial Networks,DCGAN)的网络模型进行语音增强,以下为本文主要工作:针对传统方法降噪效果不佳,同时加强基于生成对抗网络增强方法的语音恢复能力和降噪效果,本文采用深度卷积对抗网络建模进行语音去噪,通过多层卷积操作提取有效特征并提高对语音的恢复能力。将GAN的生成器采用U-net结构进行改进,加入了跳跃连接,避免由于网络层数过深出现的信息丢失问题,保留更多特征的细节信息,增强语音降噪效果。针对基于DCGAN语音增强方法在低信噪比时残留部分噪声,导致分段信噪比偏低的问题,本文提出了基于WDCGAN的语音增强方法,采用Wasserstein距离代替交叉熵作为损失函数,增强网络学习能力,进一步降低噪声信息,从而提高语音的分段信噪比,实现语音增强。
其他文献
随着医药、畜牧和水产养殖的发展,环境中抗生素残留问题日益突出,相伴而生的抗生素和重金属的复合污染成为环境中的一种普遍现象。同时,生物炭是一种优良的吸附剂,在抗生素和重金属污染的修复发面具有广泛的应用前景。本研究选取环境中检出率较高的磺胺甲噁唑(SMX)和Cu(Ⅱ)为目标污染物,采用玉米秸秆为生物质原料,分别在300℃和600℃热解炭化制得生物炭(分别标记为BC300和BC600),并用HCl对其进
在计算机视觉的模式识别中,目标检测是一个非常具有挑战性并且极具现实意义的的研究方向。多人姿态估计作为计算机视觉领域的一个重要组成部分,也影响着很多其它研究方向,包
近年来,天然气在国民经济中发挥着愈来愈重要的作用,这使得天然气与管道业务快速发展,逐渐构成了全国性的天然气骨干管网。多气源、多用户、管网化的供应格局已经形成。天然
多智能体系统通常是指由大量具有通信连接的智能体所组成的系统。借助相互之间的信息交换系统在整体上可以呈现出单一智能体所不具备的行为。由于在多智能体系统的研究领域,
胃癌的发病率和死亡率都位居各种癌症的前列,是一种世界性的疾病,给很多人的正常生活带来严重影响。胃癌在早期症状不明显,相当多的病例在确诊后已经延误了最好的治疗机会。
在医学图像的三维重建的过程中,结合图像分割算法,一个序列的CT图像会产生多个不同器官的三角形网格,部分器官如骨骼等会含有大量的顶点和三角形面片。运行分割算法和存储大
C2区块位于缅甸中央盆地北部的睡宝次盆内,西部以岛弧带与钦敦盆地相连,东部为分割掸邦高原和中央盆地的Saging走滑断裂,南部以低隆与Pegu-Yoma盆地相隔,面积约为26506km2。睡宝盆地是在中生界基础上发育起来的边缘海弧后叠合盆地,上覆盖层为巨厚的新生界沉积,厚度大于20 km,是主要的油气勘探目的层。目前区块内仅有Sabade-1和AZY-1两口钻井,获得天然气地质发现,勘探程度较低。
随着互联网以不可遏制的速度融入到普通人的生活中以及智能手机、平板等移动手持设备的出现,信息交流的频率和速度不断加快。由于图像所展现出来的信息更加准确、生动,在众多
产品工程变更基本上是无法避开而且肯定会发生的事情,它会在产品的整个生命周期内一直存在,并会让其产品的开发周期变长,开发所需的成本增加。开展这项管理工作,主要的目的并不是为了能够规避变更的出现,而是要有效管控变更过程,增加其解决的速度,降低因为这个原因造成的质量、成本等方面的影响。本文以康明斯中国工厂企业为切入点,探究和讨论企业在产品工程变更管理方面存在的不足之处,研究和分析了其三大难点,即数据和协
在当前大数据和人工智能时代,行人检测的相关研究得到广泛应用,特别是在自动驾驶、视频监控和人员检索等领域。随着摄像机数量的快速增长,获取海量数据变得相对容易,但为每个