噪声与说话人感知的轻量级语音增强算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:zhoujianqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音通信在日常生活与工作交流中发挥着极为重要的作用,而人们常常处于较为嘈杂的声学环境中,这极度影响了通信质量。同时智能设备提供的语音交互功能大大提升了人们日常生活的便捷性,不过需要确保设备在使用中尽可能接收到干净的语音,以识别出正确的指令。因此,能够降低语音背景噪声、提高语音质量的语音增强技术就显得尤为关键。近年来,基于深度学习的语音增强技术凭借着出色的降噪性能已经成为主流方法。但现实生活中的语音场景是复杂多样的,对增强算法在应对不同于训练集的噪声种类、说话者风格等因素下的泛化能力提出了巨大的挑战。同时深度神经网络由于其庞大的网络规模,也造成了算法在智能设备上部署成本高、执行效率低的难题。因此本文围绕提升语音增强算法在噪声场景与说话者风格上的泛化能力,以及轻量级网络的设计展开了研究,主要工作包括以下几个方面:1)引入噪声估计模块,实现基于噪声感知的语音增强技术,提高算法在未知环境下的泛化能力。首先,本文在端到端的语音增强算法中引入了噪声估计模块提取代表环境信息的噪声嵌入向量,作为增强网络的附加输入。同时,设计了条件层归一化技术引入噪声信息,影响增强网络层的输出分布,使得增强算法能够对噪声进行自适应地调整。在本文实验中,基于噪声感知的语音增强算法取得了一定的语音质量提升,感知语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)得分较原模型平均提升了0.13。而噪声嵌入向量的可视化结果也证明模型学习到了有意义且代表噪声种类的信息。2)针对增强算法对未知说话者泛化能力弱的问题,引入说话人识别模块,实现基于说话人感知的增强算法。本文设计了端到端的说话人识别模块以提取说话人嵌入向量。并实现了不同的信息融合方案将说话人特征引入基于噪声感知的语音增强框架中。本文设计的噪声与说话人感知的语音增强算法采用门控循环融合单元结构,通过门控机制选择与存储信息可以更为有效地融合特征,进一步提升了降噪语音的质量。3)针对增强网络参数大、计算效率低的问题,提出了轻量化网络的方案。本文设计了一种基于深度可分离卷积的轻量级增强模型,通过深度可分离卷积将通道和特征区域分开计算的操作极大地缩减了模型的计算量。轻量化后语音增强算法的参数计算量减少了80%以上,同时仍保持了与原模型相近的降噪性能。此外,本文提供了另一种有效压缩增强模型的方案,通过压缩卷积层的输出通道数进一步降低了模型尺寸。
其他文献
随着物联网技术的高速发展和相关设备的广泛使用,其安全性也因此受到了重视。其中,物联网设备中的固件安全就是很重要的一个方面。目前,在固件开发过程中存在大量使用开源库和代码复用的问题,导致不同平台上的固件经常受到相同已知漏洞的影响。因此,检测跨平台下的同源漏洞可以有效减少固件漏洞对设备造成的不良影响,这对维护固件安全具有十分重要的意义。现有的漏洞检测方法一般需要对所有的待检测函数进行精确匹配,导致在大
学位
建设工程的稳步发展离不开施工安全管理的保障,在安全管理工作中,对施工现场安全网的完好性进行动态检测是工地安全保障的基础。结合检测结果综合评价施工现场存在的风险,对安全管理工作有积极的推进作用。现有的施工安全网完好性检测主要依赖人工巡查,无法保证实时性,而且人力资源开销较大,还可能存在漏检问题。针对上述问题,本文研究利用深度学习方法实时检测安全网的完好性以及破损分类,并构建基于安全网完好性检测的施工
学位
本文旨在探讨数字化转型对企业经营管理的影响,并提出相应的实施策略和管理模式。通过文献综述和案例分析,对数字化转型的概念、特点以及对企业经营管理的影响进行了深入探讨,并分析了数字化转型的实践案例,总结了数字化转型的成功要素和经验。同时结合实践经验,提出了数字化转型的实施策略和管理模式。研究表明,数字化转型对企业经营管理产生了深刻影响,可以提高企业的生产效率和市场竞争力,但也带来了一系列挑战。
期刊
相比于其他传统人工神经网络的计算单元,通过对生物大脑中的神经系统信息进行模拟,脉冲神经网络所模拟的神经元在结构与其工作机制等各个方面更加具有仿生性,被誉为“第三代人工神经网络”。自脉冲神经网络理论首次提出以来,对其合理实现的研究和实践成为了一个热门课题,脉冲神经网络模型的实现方案主要分为软件模拟仿真和硬件电路实现两种思路,软件模拟具有易于开发、灵活性高的优点,但是脉冲神经元更加复杂,在模拟大规模网
学位
随着社交网络的迅速发展,每天产生数以百万计的短文本,其中包含兴趣、意图等各种有价值的用户相关信息。因此,短文本信息挖掘与分类具有重要的实际应用意义。然而,短文本具有特征稀疏、噪声高等特点,使得很多机器学习方法应用于短文本分类时出现性能下降问题,同时,许多神经网络模型在训练时依赖大量标记样本,但是现实中,获得大量标记数据十分困难。基于以上原因,小样本条件下的短文本分类成为自然语言处理领域的研究热点之
学位
大力推动数字化转型是建设制造强国的重大战略举措,数字化转型成为企业提升创新绩效的有效途径。基于动态能力视角,以2007—2021年沪、深A股上市公司为研究对象,运用Heckman两阶段模型与文本分析方法,实证检验企业数字化转型对创新绩效的影响及作用机制。实证结果显示:数字化转型显著影响企业的动态能力决策行为,企业的创新绩效也因此得到显著提升。异质性检验结果显示:数字化转型对创新绩效的提升在国有企业
期刊
随着信息技术的发展,监控设备的部署越来越多,为了构建智能安全的监控场景,对大量监控视频进行管理面临更多挑战,因此对监控视频进行智能异常事件检测的研究具有重要的现实意义。面向视频监控的异常事件检测具有一定的挑战性,不同场景中异常类型的多样性和异常定义的无界性,限制了监督学习在视频异常事件检测中的应用。自动编码器作为一种无监督的方法被用于视频异常事件检测中,但自动编码器较强的泛化能力导致正常帧和异常帧
学位
陆空通话是民航空中交通管制员和飞行员之间进行交流的主要载体,对于飞行器的正常起降、紧急情况时地空间的沟通都有着重要的意义。依据统计数据,陆空通话错误引起的飞行安全事故占所有安全事故的41%,对陆空通话进行分析有助于避免出现飞行安全事故。为保障航空安全,缓解陆空通话分析工作中的人工负担,本文针对陆空通话语音特点,探索适用于陆空通话的说话人识别方法,从而为陆空通话的自动化与智能化分析奠定基础。为获得良
学位
行人重识别的优异性能往往依赖于具有准确行人身份标签的大规模数据集,然而在实际场景中,由于数据采集和注释困难,样本会不可避免地被错误标注,这就产生了标签噪声。标签噪声会误导网络的学习,从而导致模型的性能的下降。但是,现有的行人重识别方法很少关注标签噪声给行人重识别带来的负面影响。针对这个问题,本文以消除噪声标签对行人重识别不利影响为目标展开了如下研究:针对现有的行人分类模型不具备抗噪声能力的问题,本
学位
最近十年来,随着深度学习技术的飞速进步,越来越多的研究人员将眼光投入到计算机视觉与自然语言处理相结合的任务中。其中的一个任务:图像描述,即图像生成文本,该任务旨在通过用一句或多句自然语言来描述图像的视觉内容。最近,它已取得了显著的成果,图像描述任务按照生成的文本长度可分为:单句子的图像描述和图像段落描述。单句子的图像描述更强调生成的句子符合图像语义,从图像的整体部分去描述图像的视觉内容;图像段落描
学位