复杂环境下基于神经网络的语音增强算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wdq007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号在传输过程中会不可避免地被噪声和混响等干扰因素污染,在到达接收端后将严重降低语音信号的听觉感知质量和可理解程度,不利于高效的交互交流。为了解决上述问题,语音增强技术应运而生,该技术是声源分离技术的一种特殊情况,旨在净化、恢复被各种环境干扰所破坏的语音信号,在智能家居、即时通讯以及远程会议等领域都有着十分广泛的应用。本文主要研究基于神经网络的语音增强算法,通过深入分析近年来本领域的相关研究成果,发现多数研究工作主要聚焦于加性噪声条件下的语音增强问题,而对极低信噪比、乘性混响等复杂环境下的语音增强研究相对较少;此外,对神经网络损失函数的设计没有考虑到人耳的听觉感知特性,对语音增强任务不具有强针对性,这限制了模型的学习能力和干扰抑制水平,加大了恢复干净语音的难度。卷积时域语音分离网络(Convolutional Time-domain audio separation Network)作为一种新兴的模型结构在语音声源分离任务中取得了良好的效果,本文将以Conv Tas Net神经网络为基础,研究复杂环境下的语音增强和干扰抑制问题。本文的主要研究内容有以下几个方面:1、提出了一种基于挤压膨胀注意力的卷积时域语音分离网络(SqueezeExpand Conv Tas Net)模型,对原生Conv Tas Net模型中的残差块进行改良,去除了其中的跳跃连接结构,使用挤压膨胀注意力机制对通道显式建模,改双重连接机制为单残差连接。一方面降低了模型的神经元参数量,另一方面也提高了模型的噪声去除能力。此外,本文使用门控卷积配合PRe LU激活函数形成掩蔽,独立地为输出特征空间上的任意一点生成权重,解决了Conv Tas Net输出模块存在的数值饱和问题。最后,本文采用了一种尺度不变的均方误差损失函数,有效地保障了损失函数的计算不受幅度变换的影响,可以更加准确地反映估计语音与纯净语音之间的差异。实验结果表明,本文提出的SEConv Tas Net相比于原生的Conv Tas Net在感知评估语音质量指标上提升了5.66%,在尺度不变信噪比指标上提升了5.34%。2、针对噪声和混响同时存在的复杂背景环境,提出了基于挤压膨胀注意力与Transfomer模块的卷积时域语音分离网络(Squeeze-Expand Conv Tas NetTransfomer)模型,在SEConv Tas Net基础上加入了基于自注意力机制驱动的Transfomer模块以提高模型的语音重建精度,解决了复杂环境特别是混响抑制场景下对输入语音序列的长期依赖性建模问题。实验结果表明,SEConv Tas Net-T相比SEConv Tas Net在感知评估语音质量和短时客观可懂度指标上分别提升了5.19%和1.49%。此外,本文在实验中发现,单纯的时域模型配合时域优化目标虽然可以在多数时域指标上取得客观的语音质量优化,但是其往往会忽略掉语音的高频率成分,导致其客观可懂度下降,因此本文将尺度不变的均方误差损失函数与更符合人耳听觉特性的梅尔频谱结合作为SEConv Tas Net的时频混合损失。实验结果表明,模型在感知评估语音质量和短时客观可懂度指标上分别提升了4.1%和0.39%。
其他文献
近年来随着光纤通信业务量的快速增长,基于少模光纤(Few-mode Fiber,FMF)的模分复用技术由于可以大幅度提升光通信的传输容量而引起人们广泛关注。在模分复用系统中,模式转换器(Mode Converters,MCs)作为关键性器件,可以将一个特定的模式转换为其他模式。其中,基于少模光纤布拉格光栅(Few-mode Fiber Bragg Grating,FM-FBG)的MCs可以实现前向
铁路是中国交通运输的动脉。轨枕作为轨道结构的一部分,不可或缺。中国传统的轨枕多采用木材、水泥、钢筋混凝土等材料,各种材料均有它各自的不足。竹材和竹材纤维素具有资源丰富、生长周期短、机械和物理性能优异、环保等一系列优点。在混凝土中添加竹纤维可增强复合结构的整体机械性能。竹纤维可为混凝土增加一定程度的可塑性,从而增强其延展性,减小脆性。针对竹纤维混凝土的力学特性,以及竹纤维混凝土轨枕的力学性能,本文进
频繁发生的突发事件,对人类的生命安全和社会的经济发展都带来了巨大的威胁。突发事件存在于生活中的各个领域,典型的如运输事故和自然灾害。若危险品运输车辆发生事故,则会因有害物质的泄露,进一步造成人群中毒、环境污染等严重后果;地质自然灾害,会中断重大工程的建设,损坏设备,造成施工人员伤亡。因此,为了尽量减小突发事件的不利影响,需要对典型事件场景的应急管理科学规划。不仅如此,突发事件发生后的不确定性(如伤
学位
随着人工智能的快速发展,在机器学习、情感感知、智能机器人等领域需求更为智能的计算机,然而经典的冯诺依曼计算机体系已经不能满足现在的计算需要,相比之下神经形态计算具备图像语音识别、控制、推理、学习、感知等功能,其高速并行的计算方式具有低功耗、高效率的特点。本文从动物神经突触结构上受到启发,基于石墨烯和离子凝胶场效应管设计出具备神经形态的柔性人工神经突触器件,为神经形态计算提供可行性方案。论文的主要研
学位
随着我国社会经济的不断发展,尾气排放造成的污染问题越来越严重。等离子体是一种具有应用前景的尾气处理技术,能够脱除尾气中的SO2、NOX、VOCs,在催化剂协同下,可提高污染物处理效率。本文主要针对辉光等离子体协同催化作用的尾气处理进行了研究。设计了应用于工业尾气环境下能够耐高温并可搭载催化剂的电极结构,进行了仿真和实验分析,对气体在电极模块中的流动情况进行了流体仿真分析,并对空气和尾气下的放电特性
学位
20世纪70年代以来,经济的快速发展在给我国的繁荣进步带来旺盛生命力的同时更是带来了各种各样的大气污染问题。现阶段,针对大气污染治理呈现出的跨区域、跨部门特性,我国地方政府正在积极探索协同治理的有效途径和机制,但是由于区域内发展不平衡,各地方政府更注重自身利益和眼前利益,在协同治理行动中各自为政协调困难,大气污染协同治理一直难以形成有效合力。因此,探究影响我国各个行政区域内大气污染协同治理困境的动
学位