基于迁移学习的U-Net语音增强研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:martelfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年以来,随着智能语音设备的普及,人们对语音降噪的需求日益增加,语音增强算法的作用也日益彰显。其中基于深度学习的语音增强算法显示出了巨大的潜力,极大地提高了语音降噪的能力,但是同时也存在着很多问题和挑战,例如通过引入密集连接卷积网络(Dense Convolutional Network,DenseNet)可以提高模型的性能,但是也存在参数利用不充分的问题;损失函数和评估指标不匹配,常用的损失函数,例如均方误差(Mean Square Error,MSE)并不能很好的表示语音的特征;在极低信噪比下,模型的有效性降低和稳定性变差,模型泛化能力有限,在真实环境或未知环境中,模型的效果大打折扣等等。为了解决上述问题,本文给出了一种基于U-Net的时域语音增强方法,在每层编码器和解码器之后添加残差-密集晶格(Residual-Dense Lattice,RDL)网络,提高模型的参数利用效率,缓解参数重用问题;通过在每层编码器和解码器之间添加注意力机制,缓解了模型的长期依赖问题,提升模型的性能;采用尺度不变信号失真比(Scale Invariant Signal-to-Distortion Ratio,SI-SDR)损失和频域损失联合训练的方式,充分结合时域和频域的信息,缓解损失函数和评估指标不匹配的问题,最后使用联合SI-SDR和语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)的方式对模型进行微调,进一步提升了增强语音的质量。实验结果表明,与结合空洞和密集连接的自动编码器卷积神经网络(Dilated and Dense Auto Encoder Convolutional Neural Network,DDAEC)模型相比,在0dB下,本章给出了基于注意力机制的残差-密集晶格自动编码器卷积神经网络(Attention Residual-Dense lattice Auto Encoder Convolutional Neural Network,ARDAEC)模型的PESQ和短时客观可懂度(Short-Time Objective Intelligibility,STOI)得分分别提高了0.09和1.4%,经过PESQ微调的ARDAEC-P模型在两种不匹配噪声(Babble和Factory2)的平均PESQ分数达到了2.76,平均增益约为1.18。为了检验模型在真实环境中的增强效果,设计了基于XMOS的麦克风阵列采集板,用于采集真实环境中的带噪语音,检验模型在真实环境中的降噪能力。实验结果表明,在0 dB下,针对人工合成的Babble噪声,增强语音的宽带音频波形评估网络(Wideband Audio Waveform Evaluation Networks,WAWEnets)分值为 3.45,提升了 2.20,非参考语音质量评估(Non-Nntrusive Speech Quality Assessment model,NISQA)分值为3.22,提升了 1.71;与基准模型DDAEC相比,在绝大多数的录制噪声的评分中获得了更好的WAWEnets和NISQA分值,显示出较好的降噪能力。为了进一步提高模型的泛化能力,通过动态域对抗自适应网络学习源域和目标域之间的不变性,在没有并行语句的前提下,只利用少量测试语音,提高模型在目标域上语音增强性能。实验结果表明,在0dB下,与ARDAEC-P模型相比,当使用大约30%(SEDAAN-250)的测试语句时,模型的PESQ和STOI分别提高了 0.08和2.5%。
其他文献
随着人工智能技术与大数据技术的飞速发展,医疗行业中数据的信息化也在不断地建设。随着医疗数据的建设和完善,人工智能技术开始辅助医疗的研究和发展。无痛分娩,在医学上被称为“分娩镇痛”,在这里具体指的是硬膜外镇痛。这种方式可以使孕妇在分娩时的疼痛感得到极大缓解,让分娩更加顺利,但是也会对孕妇和婴儿产生的不良影响一直备受争议。对于这个人工分析较为困难的问题,人工智能技术及大数据技术可以在研究和辅助分析方面
媒体内容作为一种可以携带丰富信息的传输载体,在社交网络中扮演着重要的角色。随着移动互联网的飞速发展,人们不再满足于信息接收者的角色,而是更倾向于制造内容和分享内容。通信技术也使得人们记录生活的方式由传统的博客转向媒体平台,图片、视频载体越来越受到人们的欢迎,因此人们也对媒体服务提出了新的需求。一方面为了提高视频的编码效率,并适应多样化的设备和复杂的网络环境,可伸缩视频编码(Scalable Vid
企业创新对当前我国经济实现结构转型,解决部分核心关键技术领域卡脖子问题具有重要意义。但需清醒明白的是,当前我国创新水平与创新能力建设已取得较大成就,但在研发投入水平等方面同国外发达国家相比还有较大差距。因此细化研究影响微观个体及企业创新动能的因素,不断提升企业的创新动力与能力具有较大的现实意义。本论文以融资约束的角度切入对企业创新的研究,创新性地引入了行业资源丰度和行业环境动态性的行业环境指标。本
随着APT组织的兴起,针对国家或者大型公司的APT攻击也逐渐被安全研究人员关注,其中APT攻击手法隐蔽,且通常使用Oday或者较新的Nday,难以防范,因此针对漏洞利用行为的检测在当前环境下是十分有必要的。本文提出了一种基于控制流完整性的漏洞利用检测技术,该技术通过处理器硬件跟踪能力对程序执行的汇编指令序列进行提取和恢复,从而准确透明无感知的获取到程序完整的运行时汇编指令序列,其中可能包含漏洞利用
信息隐藏技术是一种将秘密信息隐藏在自然载体中而不改变载体感知特性的科学。图像、视频、语音、文本等多种数字媒体都可以作为信息隐藏的载体,而音频隐写技术是以音频为载体进行隐写的技术。现有的音频隐写方法主要是人工设计的方法,在算法设计时需要大量的对应的专业知识,门槛高,还面临很多挑战。此外,在大数据时代,媒体形式丰富多样,若信息隐藏模型只能针对单一类型的载体进行嵌入和提取,其安全性是不够的。我们希望无论
随着互联网的发展,JavaScript作为一种功能完备的脚本语言,被广泛地应用于Web网站开发,但是由于这种程序语言具有动态执行、不依赖于平台等特性,在给开发工作带来便利的同时,也造成了严重的安全隐患,比如黑客们极易利用浏览器及插件的漏洞进行恶意代码的编写与执行。网络攻击技术的快速更新和迭代泛滥已经严重危害到广大用户的安全,因此面对严峻的网络空间安全现状,我们亟需对JavaScript的代码安全进
随着移动互联网的快速发展,移动应用程序逐渐改变了人们的日常生活方式。在应用市场中的应用数量指数级增长的同时,应用安全设计缺陷和恶意程序的增长也带来了严重的安全威胁,对当前移动应用自动化测试技术提出了挑战。当前,国内Android应用市场中应用功能日益丰富,不仅限于社交类应用,用户与应用之间、用户与用户之间的关联越来越紧密。国内多数应用都涉及了用户账号的注册和登录功能,部分应用核心功能与用户账号紧密
语义分割是智能驾驶领域目前仍具挑战性的重要研究问题之一,使用深度学模型处理语义分割任务已为学术以及应用界的主流。对于语义分割任务,在图像建模过程中考察图像的二维序列关系可以显著地提高深度学习模型的性能,在此基础上,非局部模块以及其他形式的注意力模块得以提出。本文的研究内容重点关注了基于注意力机制的图像序列关系建模以及损失函数的设计及改良,主要内容如下:1.针对图像序列关系建模问题引入注意力机制,利
随着互联网的发展,信息过载成为人们获取感兴趣内容的一个重大挑战。推荐系统作为信息过滤系统的一个子集,能够根据用户本身的属性信息以及商品的历史交互记录来挖掘用户潜在的兴趣爱好与需求,大大减少了用户筛选信息的时间,对于提升用户体验、缓解信息过载问题有很大的帮助。传统的推荐算法通常只考虑了用户和商品的直接交互这种规则的欧几里得数据而往往忽略了实际场景中用户和用户关联,商品和商品关联等等构成的错综复杂的图
近年来,越来越多的应用要求低延迟和高处理能力。移动设备有限的计算能力限制了其在复杂移动应用中的性能。将任务计算机会地卸载到边缘服务器上,可以减少移动设备上的计算负担,提高移动终端的续航时间。然而,由于用户的移动性,网络中边缘服务器上的计算负载会变得不平衡。因此,针对用户移动性异常检测和基于用户移动性进行计算卸载流量均衡,成为一个迫切需要解决的问题。本文在移动无线接入网络场景下,针对用户移动性异常检