基于深度学习的语音增强算法研究与实现

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:jshajhb1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是指利用音频信号处理技术及各种算法提高失真语音信号的可懂度或整体感知质量,从而进一步在语音识别、语音通话、军事窃听和听力辅助等场景中改善应用效果。本文主要研究基于深度学习的语音增强算法,即凭借深度学习模型学习带噪语音与纯净语音之间的映射关系,达到提升带噪语音信号可懂度和质量的目的。通过对现有算法的设计思路与建模机制进行深入分析后,发现这些方法存在以下几个不足:第一,模型训练目标与评价指标不匹配,一般的损失函数不能反映人耳听觉感受,而评价指标围绕人耳听觉进行设计,导致损失函数与评价指标的失配,使最优模型达不到较好的评价。第二,目前针对低信噪比条件下的语音增强研究较少,而在低信噪比条件下,语音成分稀疏,目前的模型缺少保留语音信息的针对性设计,使得恢复完整语音的难度增加,导致增强语音的质量与可懂度下降。本文针对上述问题进行研究,提出了相应的解决方案,主要贡献如下:(1)提出基于生成对抗神经网络的语音增强算法。针对问题一,研究博弈对抗训练模式,令判别器神经网络学习纯净的语音与带噪语音之间的区别,理想目标是使之学习人类的听觉感受,并且给予语音增强模型与评价指标相匹配的反馈。实验结果表明,所提出的算法能达到与主流相关工作相近的性能。(2)提出基于RefineNet的语音增强算法。针对问题二,利用该网络的RefineBlock融合浅层与深层特征图,达到充分利用浅层语音特征的目的,并且针对问题二,提出将评价指标与损失函数相融合,研究能达到最优性能的组合方式,使得训练目标与评价指标保持一致。相关实验中本算法的各项指标均优于基准模型,证明了本算法的有效性。(3)进一步提出基于RefineNet神经网络的端到端语音增强算法。针对问题二,利用端到端模型无需经过特征预处理的特性,保留所有原始语音信息,并采用模拟短时傅里叶变换的网络结构,使神经网络能够自动提取有效特征。通过与基准算法的对比,证明了本算法的有效性。
其他文献
目的:探讨前置胎盘剖宫产产妇围手术期的常规护理方法及护理效果。方法:选取2011年1月至2013年1月我院24例前置胎盘并行剖宫产术的产妇,对其进行心理、常规系统性、计划性的
企业信息化是将企业的生产流程、物流管理、资金管理、客户关系管理、事物处理等业务过程和市场环境变化过程数字化,通过计算机网络、信息系统和人的有机结合,使企业的生产要
文章研究了不同TS混合比(TMR)的牛粪与玉米秸秆在37℃中温条件下混合厌氧消化产沼气性能,动态考察了发酵过程中p H值、日产气量、累计产气量、累计甲烷产量以及TS/VS产气量等指
从现代牧业集团塞北牧场的规模化沼气工程沼液中分离得到10株芽孢杆菌,其中3株可以促进沼气产生,通过实验室模拟沼气发酵试验,发现其中LAM—CQ一3菌株可以明显促进沼气的产生,沼
文章介绍了近年来螺旋输送机的发展现状,并对螺旋输机的理论分析、设计制造和运动仿真方面进行分析总结。指出螺旋输送机在沼气干法厌氧发酵中的可利用性,并提出适用于沼气干
目的:观察用自拟益气活血方治疗气虚血瘀型冠心病心绞痛(胸痹)的临床疗效。方法:在为2006年4月至2010年9月本院心内科住院部或门诊收治的97例患者进行治疗的过程中将其随机分
餐厨垃圾厌氧消化产生沼气的同时会产生大量的沼液,沼液成分复杂,已成为限制厌氧消化工程大规模应用的瓶颈之一,其处理一直受到广泛关注。试验采用H2O2作为氧化剂,研究H2O2对
文章以马铃薯皮渣和牛粪为原料,通过厌氧发酵装置,进行混合发酵产沼气实验。将马铃薯皮渣和新鲜牛粪分别以100:0,80:20,50:50,20:80和0:100的比例均匀混合,利用自制的厌氧发酵装置
城市空气环境与居民的健康息息相关,而植被是缓解城市空气污染的重要因素。为了了解植被在去除城市PM2.5中的作用,本文通过理论分析和计算机模拟两个方面,对植被影响下的城市