基于多头注意力机制的单通道语音增强研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:eline77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人与人之间最重要的交流方式,随着时代发展,语音也是人与机器之间重要的交互手段。但是在很多环境下,语音信号会被其他信号干扰,影响到沟通的效率及效果。所以如何有效地改善噪声环境中的语音质量具有重要意义。语音增强就是在噪声条件下提高目标语音信号质量和可懂度的基本技术。近年来,随着深度学习的发展,单声道语音增强算法取得了长足的进步。其中,循环神经网络由于可以天然地对语音的序列关系进行建模,成为了语音增强任务中的常见模型。但是循环神经网络存在两个问题。首先是建立长期依赖时的梯度消失和爆炸问题,这严重影响了循环神经网络的性能。其次,由于循环神经网络中上一步的输出将被用作当前步骤的输入,因此很难将计算过程并行化。这个问题限制了它的实时处理能力,而实时处理能力是语音增强应用的重要要求。作为循环神经网络的替代网络,基于多头注意力机制的网络也由于位置嵌入模块的局限性,不能很好地对语音信号进行建模,发挥不了自身模型的强大潜力。这些都限制了语音增强的进一步发展,本文围绕基于多头注意力机制的语音增强模型进行了研究,主要研究工作如下:首先,为了有效利用到多头注意力机制的优点且提高对语音信号位置顺序信息的利用,基于已有的Transformer模型结构,提出新的语音增强模型。具体地说,使用长短期记忆网络(Long Short Term Memory,LSTM)替代位置嵌入模块来构建语音信号输入的位置顺序信息,其中LSTM是循环神经网络的一种变体。同时为了避免循环神经网络梯度爆炸或消失以及不可以并行化的缺点,使用了新的计算方式——局部长短期记忆网络(Local Long Short Term Memory,Local LSTM)。理论上,新的语音增强模型既可以有效利用语音信号位置顺序信息,又可以很方便地并行化推理运算。实验结果表明,与基准模型相比,新的模型在未知噪声环境下可以始终如一地在语音质量和语音可懂度上实现更好的性能。新的模型在运行速度上也有很大提升。其次,考虑到上述模型训练优化时,使用的是语音信号幅度谱的均方误差,和语音增强模型评价指标之间没有直接联系,理论上会影响模型的最终效果。所以在上述模型基础上进一步的考虑了SI-SDR(Scale invariant signal-to-distortion)优化,即以SI-SDR为优化目标进行训练。但是SI-SDR是由时域波形计算得到的,而上述模型输出的语音信号特征是时频域,直接更改优化函数无法进行反向传播训练。因此,在上述模型的基础上修改了模型结构,在模型中集成了用一维卷积层实现傅里叶变换,从而使新的模型可以直接输入输出语音波形,进一步简化了模型训练流程。同时,实验结果表明,新的模型结构达到了更好的性能。
其他文献
车载网络中的信息交互给用户带来了诸多便利。随着5G时代的到来,网络服务的传输速度有了明显的提高,车辆在车载网络中交换的内容不再局限于交通信息。高速行驶状态下的车辆可以共享各种内容。然而,由于车辆的快速移动特性,安全、高效地共享内容仍然具有挑战性。条件隐私保护和消息认证一直是车载网络安全研究的主要课题,在新的技术背景下,车载网络面临的主要问题依旧是满足用户对于安全性的需求。在许多现有的认证方案中,车
DRAM由于单元尺寸小、容量大、耐久度高等优点,被广泛应用于移动设备、服务器、PC等领域。其市场规模超过600亿美金,占全球集成电路市场十分之一以上。在工艺不断进步的过程中,DRAM电容大小不断降低,为SA识别位线间的电压差带来巨大挑战。受随机掺杂波动的影响,SA的失调电压逐渐增大,因此对DRAM低失调灵敏放大器的研究非常有意义。本文首先对DRAM结构和原理进行介绍,然后分析了SA失调电压产生原因
最近十几年,互联网发展的速度超乎想象,以前都是通过信件或者面对面交流,而现在,基本被互联网取代。由于互联网已经成为日常生活中的一部分,所以网络信息安全就被广大网络用户密切关注。信息是否安全,这完全由密码的可靠性决定,密码的保密性的高低又是由密钥复杂程度决定,随机数的随机性越好,生成的密钥越复杂,反之生成的密钥就比较简单,容易被破解,所以随机数发生器的研究就极其重要。本文介绍了直接频率平均(Dire
存储器,是一种有效存储数据的芯片,它是集成电路产业的关键部分,更是电子设备上必不可少的组成部分。随着便携式电子设备的兴起,例如手机、平板电脑、无线蓝牙耳机等,电子设备上日益增加的功能与迟滞不前的电池技术产生了矛盾,所以在电路设计层面,低功耗技术变得越来越重要,用非易失性存储器替代易失性存储器是一个很好的解决方案,但是现存的主流非易失性存储器如FLASH,读写速度慢,写入功耗大,无法替代SRAM、D
作为计算机视觉任务中的一个重要分支,图像显著目标检测旨在研究让计算机模拟人类的视觉注意力机制提取图像中最感兴趣的目标或区域。近年来,随着卷积神经网络在不同计算机视觉任务中的广泛使用,基于卷积神经网络的显著目标检测吸引着越来越多人的关注。基于传统机器学习方法的可见光显著目标检测在遇到场景复杂、目标与背景相似等挑战时,目标边界模糊现象较为严重。而热红外成像仪可以根据物体表面的热辐射成像,不会受到雨雪、
信息通信技术的蓬勃发展使整个社会进入了智能时代,智能设备与社会紧密的联系在了一起。智能设备的普及以及优化在给人们带来更加优秀的用户体验的同时也对智能设备中的硬件要求变得越来越高。存储器作为智能设备中极其重要的组成部分,对于其性能的要求也就变得越来越高。动态随机存取存储器(Dynamic Random Access Memory,DRAM)作为应用最为广泛的一类存储器,其在整个存储器市场的占有份额一
如今,智能技术已成为人类生活中不可或缺的一部分,创新技术工作者一直在寻找能够满足这部分需求的智能高效材料。其中,光电探测器和超级电容器就是其中的两种技术。光电探测器是可以将光信号转换为电信号或其他信号的设备,目前已在生物和化学传感,医学成像,安全通信和天文研究等领域都有重要的使用。自从发现极高电离的紫外线(UV)辐射会触发许多化学过程以来,研究人员就非常清楚它们对人体健康和环境的有害影响。因此需要
电磁带隙(Electromagnetic Band-gap,EBG)结构因其独特的电磁特性,受到了众多学者的广泛关注,结合EBG结构来进行天线设计成为了新一轮的研究热点。本文在先前EBG天线设计的基础上,重点研究了小型化和多频段EBG结构在天线设计中的应用,分别设计了多款小型化和多频带的EBG结构,并把它们应用在多频带、超宽带和MIMO天线的设计中。其中在双频天线的设计中,创新性的提出了新型嵌套型
随着全球经济迅速增长,甲烷(CH4)作为天然气的主要成分,已经成为生产生活中重要的燃料之一。但因其易燃易爆的特性,严重威胁生产和人身财产安全。此外,甲烷作为重要的温室气体,对加速气候变暖起着不可忽视的作用。因此,开展甲烷气体的高灵敏度检测方法和仪器研制具有重要的实际意义。当前,激光吸收光谱因其具有非接触性、快速响应和高灵敏度等优势,在气体检测领域得到广泛应用。直接吸收光谱技术作为广泛使用的光谱方法
随着半导体器件的特征尺寸的不断等比例缩小,由其构成的芯片尺寸也在不断减小,但是随之而来的是急剧增长的功耗密度。然而,传统的MOSFET器件因其导电机制,在室温下存在亚阈值斜率理论极限(60m V/dec),这使得以MOSFET器件为基础的芯片无法持续降低电源电压来降低芯片的功耗。所以具有低亚阈值斜率的超低功耗新型器件的研究十分重要。其中隧穿场效应晶体管因具有极低的关态电流、超陡的亚阈值斜率SS、与