基于深度神经网络的单通道语音增强方法研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:seanray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音沟通是人们活动中不可分割的重要部分,随着技术的进步,语音识别、情感识别、说话人鉴别等自动语音处理系统得到了广泛的应用,也有越来越多的人机交互设备采用语音作为主要交互方式。然而,现实生活中,各种噪声的干扰十分普遍,这会显著降低各种语音处理系统的性能。因此,有必要研究能够减弱噪声和干扰对语音影响的语音增强系统。语音增强系统经过多年发展,已经取得了一定成果,但依然存在较多不足,例如:(1)语音增强系统的性能依然有较大提升空间;(2)多数语音增强系统对训练数据训练时间的要求较高等。这使得语音增强系统的泛用性和灵活性依然不足。为了提升语音增强系统的性能,并降低其对训练数据和训练时间的需求,本研究提出了一套新的基于深度神经网络的单通道语音增强方法,主要贡献有:(1)在基于卷积循环网络(CRN)的语音增强系统中,加入了归一化门控线性单元(NGLU)和并行结构,构建了一种新的用于语音增强的网络,称为并行卷积循环网络(PCRN)。该网络由卷积自编码器、双向门控循环单元(BGRU)、并行循环层结构和后处理模块构成。其中,卷积自编码器由NGLU堆叠而成,BGRU用于进一步对特征建模,并行循环层结构同时处理原始语音特征和经过编码器处理后的语音特征,而后处理模块则能更好地处理并行结构的输出。PCRN能更好地提取语音中的噪声无关特征,能够降低网络对训练数据的需求,同时提升收敛速度和性能。(2)通过引入时域卷积网络(TCN)模块和频域自适应注意力(FAA)模块进一步改进PCRN网络得到APCRN网络,解决了PCRN网络存在的架构不平衡和网络体积较大的问题。其中,TCN模块能够提升网络灵活性和稳定性,而FAA模块能使网络更好地学习频率上下文信息。这种改进在降低了网络的计算代价的同时进一步提升了性能。(3)为了进一步提升性能和网络训练效率,使用多阶段学习策略,将单一大尺寸网络调整为两个小尺寸的网络:首先,用预处理网络对语音进行初步降噪,再使用主网络进一步进行处理。这一结构能够提升网络的性能,同时使得网络的训练过程更加灵活。实验证明:(1)与基于CRN的语音增强系统相比,PCRN在PESQ、STOI和SNR三种评价指标上分别提高了36.92%、10.49%和5.59%,而收敛速度提高了62.36%;(2)在PCRN的基础上,APCRN的性能又有进一步的提升:在PESQ、STOI和SNR三种评价指标上分别提升了9.71%、9.16%和8.48%;(3)使用预训练的预处理网络和更小体积的主网络的APCRN-Lite依然能够取得相比PCRN和多个基线模型更好的性能。
其他文献
大别山位于江淮之间,地处鄂、豫、皖交界处,地理位置独特,地质地貌复杂,是连接秦岭和武夷山脉的生态走廊。古老的地质构造,孕育了多样的自然景观,为物种的汇聚提供了有利条件,成为重要的生物多样性热点区域。总结前期调查资料,发现该区域缺乏系统调查和植物多样性研究,而且随着全球气候变暖和频繁的人为干扰,植物栖息地破碎化严重,植物多样性受到严重威胁。因此,很有必要对该区域开展科学性的植物本底普查。通过野外调查
学位
高原林蛙(Rana kukunoris)是青藏高原的特有物种,原属于中国林蛙(Rana chensinensis),现在隶属于两栖纲(Amphibia)无尾目(Anura)蛙科(Ranidae)林蛙属,主要分布于青藏高原东部海拔2000~4400 m的地区。本研究的主要目的是检验高原林蛙三个关键的解剖学特征是否存在地理变异,明确影响其种群解剖学特征地理变异的关键环境因子,分析其解剖学特征与环境因子
学位
超分子凝胶是分子在非共价键作用下形成的一种软材料,因其在多个领域有着广泛应用而受到了科学家的青睐。酰基氯化物如光气,草酰氯等在医药、农药、有机合成中间体等方面有着应用广泛。但是酰基氯化物普遍有剧毒性,研究表明人体暴露于20 ppm光气中,20 min内会引起严重的肺损伤和呼吸道损伤。因此,对酰基氯化物的即时、灵敏检测成为亟待解决的难题。本论文设计合成了几种超分子自组装体系,可以方便快速、可视化检测
学位
作为国家经济的战略性支柱产业,旅游业的快速发展在带来区域经济增长的同时,一定程度上影响着区域的生态环境。从生态文明建设视角切入,旅游业的有序健康发展是以生态环境保护为基础和前提。因此,提高旅游生态效率,以最小的环境代价来取得最大的经济效益,是各地政府在旅游业发展的过程中应该关注的重要课题。信阳市拥有得天独厚的旅游资源优势,旅游业发展的经济效益可观,但因旅游开发不合理、旅游管理机制不对称等带来的环境
学位
随着我国公路的快速发展,面对多种复杂的地形条件,特别是在一些狭窄的山区沟壑,如何选择设计最合理的支挡结构成为一大重要难题。而拱形挡土墙的应力分布相比较于其他形式的挡土墙更为均匀,因此不仅能提高结构的材料强度,并且还能够大大缩短其建设工程项目的工程进度,从而广泛应用在我国的一些山区复杂地段。但是从目前的研究成果来看,暂时还没有相关的具体设计和施工规范可以作为参考。本论文对拱形挡土墙进行了整体连续性模
学位
目前,公路和铁路发展迅速,交通噪声严重影响附近居民的生活。声屏障作为降低交通噪声的重要工具也因此逐渐得到了广泛的应用。声屏障结构的降噪效果受多种不确定因素的影响,如声屏障的表面平整度、材料组成、顶端形状等也都是不确定的。基于解析求解的方法在简单结构声学的不确定分析已取得坚实的理论基础,然而难以应用于复杂结构,因此开发一套有效的数值求解方法具有十分重要的实际意义。本文的主要目的是建立不同形状声屏障结
学位
本文基于建筑节能环保需求背景,提出了粉煤灰,硅灰和玻化微珠三者在混凝土中的固化处置方法。玻化微珠作为无机保温材料掺入混凝土中不仅具有保温隔热的特性而且符合建筑节能环保的主题,但是考虑到其质轻,易碎的物理特性,会导致混凝土力学性能有所降低,因此本文将粉煤灰和硅灰作为胶凝材料以一定掺量代替水泥掺入混凝土中,一方面可以对玻化微珠混凝土的力学性能起到积极作用,另一方面以工业副产品代替水泥可以减少水泥用量,
学位
疾病相关生物标志物(如核酸、蛋白质、小分子等)的准确、灵敏测定在现代生物化学和生物医学研究的许多领域都具有重要意义。这些诊断量化不但对患者的早期治疗至关重要,同时还能够有助于认识了解与疾病发展有关的基本生理学信息和监测患者对诊疗方法的反应。电化学发光(Electrochemiluminescence,ECL)分析是现代分析科学的前沿领域之一,其具有电化学分析方法的高可控性和发光分析方法的高灵敏度,
学位
3D打印技术对材料的利用率高,加工复杂类零件成本低,在各行各业均发挥出较大的技术优势。熔融沉积成型技术(Fused Deposition Modeling,FDM)是其重要分支,其设备使用与维护便捷,后处理成本低,得到了广泛应用。传统FDM型3D打印设备需要对丝材进行二次熔融,材料选择存在较大限制,喷头挤出动力有限且难以实现连续化生产。本课题设计开发一种螺杆挤出式3D打印设备,并针对喷头各项性能进
学位
教育信息化2.0时代,数字教育资源作为中职教师信息化教学要素和资源呈现手段,在教育教学中处于重要地位。随着中职教育信息化进程加快,需要教师通过数字技术将教育资源转化为数字化的数据资源,或者利用资源平台内的资源检索实现职教数字资源积累,在资源聚合和应用过程中赋予数字教育资源相应的数据价值,为教育信息化提供动能,为实现智慧职业教育奠定数据基础,为中职学校数字化转型升级创造无限可能性。中职教师实际使用数
学位