基于改进的Wasserstein生成对抗网络的语音去混响的算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:xiezuoyaoxiezuoyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音去混响是指,从声学信号中减少或消除由所有反射声波的总和叠加而成的混响。语音去混响和语音降噪同属于语音增强的范畴,而几乎所有的智能语音系统都要用到语音增强作为前端处理技术。目前语音增强技术中研究得最多的是语音降噪,然而语音混响现象几乎存在于任何封闭的空间,强混响会对麦克风接收的信号产生严重的负面影响。随着计算机的算力飞跃提升,基于深度学习的方法被广泛应用于图像和语音信号处理,然而这些方法大多数只考虑了消除语音信号中的噪声,忽略了同样影响语音信号质量的混响现象,导致损害了语音识别以及后续语言处理系统的性能。本文基于改进的Wasserstein生成对抗网络对语音去混响算法进行研究,主要工作如下:第一,深入调研语音去混响领域的发展历程和各种研究成果,详细分析了语音去混响有关的理论知识。根据语音去混响的难点以及现有的基于深度学习的语音去混响方法,证实了将生成对抗网络用于去除语音混响的有效性。第二,提出了将Wasserstein生成对抗网络应用于语音去混响的算法。生成器采用编码器-解码器的全卷积神经网络结构,为了保留更多的语音信息,在网络结构中使用了更少的池化层。判别器使用深度神经网络的结构,能够更好地拟合Wasserstein距离函数。实验结果表明,该去混响模型能够有效地去除语音混响,尤其是对混响程度严重的语音信号,与一种传统去混响算法以及深度神经网络去混响模型对比,其去混响的整体表现更好。第三,提出了将改进的Wasserstein生成对抗网络应用于语音去混响的算法。Wasserstein生成对抗网络在处理轻度混响语音的时候,去混响效果不理想。在判别器的损失函数中加入梯度惩罚项,并结合条件生成对抗网络,解决了判别器网络的参数的数值分布不合理的问题,提高网络稳定性的同时让模型在训练时收敛得更快。实验结果表明,所提算法去混响能力的泛化性更强,在保证语音质量的同时,能够更好地去除早期和后期混响。
其他文献
当今全球化竞争的时代背景下,科技创新已经成为各国综合国力竞争的主要方式。大学科技园作为科研创新、人才、市场的结合点,是促进科技、经济、教育发展的重要平台,其建设与发展一直备受国家重视。而目前对于大学科技园建筑规划层面的研究不够深入,对其创新空间的专项研究更加匮乏。良好的创新空间环境,可以反过来引导、再塑人的行为,营造创新文化氛围。因此,有必要对大学科技园的创新空间进行系统性、针对性的研究。基于上述
研究背景动静脉内瘘(Arteriovenous Fistula,AVF)通畅是血液透析患者顺利进行透析的必备条件,而内膜增生狭窄导致的血管通路功能障碍是患者死亡率增加的重要因素,目前临床上缺乏有效的防治手段。因此,如何防治AVF内膜增生狭窄并提高通畅率是近年来血液净化领域的热点及难点。在基础研究领域,有关AVF内膜增生机制的研究日益增多,但尚未有防治AVF狭窄的科学、有效的手段。究其原因在于缺乏特
呼吸功能衰竭是导致颈段脊髓损伤(Cervical Spinal Cord Injury,CSCI)患者死亡的主要原因。然而,传统的呼吸功能检测手段操作复杂,且费用不菲,给医生和患者带来了极大的负担。咳嗽作为呼吸系统的常见症状,可为判断患者的呼吸功能强弱提供重要信息。因此,基于咳嗽音评价CSCI患者的呼吸功能具有重要的社会价值和应用前景。本文的目标是基于咳嗽音判断CSCI患者呼吸功能的强弱,进而开发
高锰无磁钢具有无磁性,良好的力学性能,广泛应用于电力电气、轨道交通以及高新技术等领域。工业上一般通过精密铸造法生产,但铸造工艺很难满足高精度、大批量复杂零件的生产要求。本文通过粉末冶金法,采用Fe-18Mn-0.6C预合金粉末制备高锰无磁钢材料,通过添加不同成分的C-x Fe2O3活化剂提高材料的力学性能并研究其助烧机理;通过添加不同成分的铜粉提高材料的密度以及研究铜的致密化机理;同时利用高锰无磁
非球形粒子由于几何形状的不对称性使得其范德华力、电荷分布和曲率也呈现低对称性,从而呈现出优异的理化性能,在光子晶体、特殊涂层、生物医学和新材料的构造等领域具有巨大的应用价值。本文通过种子分散聚合反应精确控制合成不同形貌的凹面非球形粒子,提出了凹面非球形粒子的形成机理,并研究了凹面非球形粒子的自组装行为。(1)一步分散聚合法制备球形聚苯乙烯粒子。分散聚合分两个阶段,通过调整第一阶段和第二阶段苯乙烯(
联用多种具有协同效应的化疗药物是克服肿瘤耐药性、降低化疗毒副作用的重要方式,药物联用效果与实际作用于靶点的药物剂量比例密切相关。为最大程度发挥协同效果,应用于协同化疗的递送载体需要以稳定可控的载药比例递送药物,并于靶点位置以相同的比例释放药物。目前,纳米载体在药物递送的靶向性、响应性等方面的研究已较为深入,但少有能实现以稳定且可控的比例释放药物的案例,其中载体对具有不同理化性质的药物的“差异束缚力
质子交换膜燃料电池(PEMFC)具有能量转换效率高、零污染、能在低温下快速启动等优点,能够广泛地应用于交通运输、便捷式电源、发电站、航空/航天以及水下潜艇等军用和民用领域,因此近年来越来越受到各国政府及研究团队的关注。在各国政府的积极推动下,PEMFC得到了很大的发展,但要真正实现PEMFC的大规模商业化目前尚面临成本高及耐久性不足的挑战。目前PEMFC高成本的主要原因是需要使用价格昂贵的贵金属催
量子点独特的光电性能优异性在生物成像、医学治疗、传感、电池、显示与照明等领域有相关应用。量子点极易因温度升高而发生荧光淬灭现象,目前主要应用在小功率场合。量子点热稳定性差的难题制约了量子点大功率应用的发展。针对上述问题,本文设计了新型液态量子点循环冷却光转化器用于大功率激光照明。通过量子点外部压力驱动,内部相变驱动两种流动循环方式,对大功率激光激发状态下液态量子点进行温度控制,实现了液态量子点在大
随着对无线通信系统的深入研究,对射频前端设备的要来越高,小型化与集成化是其发展的趋势。滤波天线与双工天线的设计可以使设备的集成化,也能降低射频前端系统的损耗。本文所研究的滤波天线与双工天线采用交叉耦合的方法实现高频率选择性以及隔离度。同时,对天线采用对称激励的方式提高其交叉极化性能。本文的工作可以概况为以下三个方面:1、提出了一种基于源-天线交叉耦合的滤波天线。两个微带谐振器通过缝隙耦合构成二阶带
命名实体识别(Named Entity Recognition,NER)是自然语言处理工作中的一项基础任务,其目标是在待处理的文本中识别出具有特定意义的单词或者短语。命名实体识别是许多下游任务的关键前置任务,如关系抽取、共指消解、文本分类等任务,命名实体的质量会极大影响这些任务的效果。当前流行的命名实体识别模型主要是基于序列标注的深度学习模型,这些模型受限于马尔科夫假设,导致神经网络仅学习到标签之