基于时域卷积网络的单通道语音增强算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:caoenjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
听者的声学环境非常复杂,房间的墙壁反射和其他说话者的背景噪声会干扰目标语音,从而产生语音失真。关于语音清晰度感知的研究表明,人类听众,尤其是听力受损的人,在嘈杂和混响的环境中难以理解语音。为了获得感兴趣的语音,语音增强算法应运而生。传统语音增强方法有谱减法、维纳滤波法、基于最大似然、最大后验的统计模型法等,新型深度学习增强方法以深度神经网络、卷积神经网络和循环卷积网络三者为代表。近年来,基于深度学习的语音增强任务表现出了卓越的性能,与传统方法相比,各种深度神经网络在公开数据集上都取得了显著的改进性能。本文基于时域卷积网络对单通道语音增强算法进行改进,其研究内容主要可分为以下两个方面:1.对单通道语音增强算法在高混响环境下性能严重下降的问题,提出了基于时域卷积网络的两级语音增强算法。首先,本文设计出第一级语音降噪网络,该网络对混合语音进行语音降噪任务,接着设计第二级去混响网络对第一级网络语音估计进行去混响任务,最后进行联合训练优化语音增强问题。同时将第一级网络的原始混合语音添加至第二级网络以防止第一级网络过抑制导致语音失真,丢失目标信息,实验仿真表明其性能指标在相近模型参数量的情况下明显优于原始单级网络的语音增强系统,在高混响环境下也具有良好的泛化能力。2.在复数网络语音增强领域,受到频域复数网络的启发,对时域信息应用希尔伯特变换得到复数信息,接着在时域进行复数网络的单通道语音增强任务的研究。为此,首先对原始时域卷积网络进行改进,形成适用于复数信息的复数时域卷积网络,同时也研究了实数与复数信息的权值共享方式对性能的最终影响,也对跳连结构应用了注意力机制的改进。实验结果表明,在各个信噪比下,本文提出的算法的性能指标在同样甚至更小的网络参数量下优于当前大部分语音增强网络和传统算法。
其他文献
随着职业教育信息化的加速发展,传统的乘务英语教学面临新的机遇与挑战。在教学实践中不断探索“后慕课”时代乘务英语教法改革,赋予“互联网+”更多时代特征。以SPOC教学模式整合在线教育及线下教学资源,注重学习个性化、操作精细化、评价多元化,推动了乘务英语教学现代化、智能化、立体化建设。
期刊
极化码是第五代移动通信中用于控制信道的编译码方案,具有巨大的研究价值。极化码的循环冗余校验辅助的串行抵消列表(Cyclic redundancy check Aided Successive Cancellation List,CA-SCL)译码算法的列表大小与纠错性能成正相关,而与复杂度成负相关的关系。本文为了提高极化码的纠错性能,提出了基于耦合的极化码编译码算法。首先设计了一种新的编码方案,每
学位
智能反射面(Intelligent Reflecting Surface,IRS)辅助通信技术凭借其无源以及可以智能重塑无线传播环境的优势,引起了学术界和工业界的极大关注。但IRS无法发送导频信号,且由于其反射元件对应的通信链路数众多,使得难以通过信道估计获得系统准确的瞬时信道状态信息(Channel State Information,CSI)。在现有的有关IRS性能的研究中,大部分文献为了便于
学位
随着各种智能设备以及新型应用的快速发展,网络中的移动数据流量呈现爆炸式增长,对现有的网络构成了严峻的挑战。作为第五代移动通信关键技术的边缘缓存技术通过将用户感兴趣的内容提前缓存在靠近用户的基站(Base Staion,BS)中,使得用户可以直接从就近的BS获取所需的内容,在显著降低网络中流行内容的重复传输的同时提升了用户的体验质量。但是边缘缓存技术存在缓存容量受限、用户需求多样化以及无线资源受限等
学位
电磁超材料是二十一世纪出现的一类新型材料,由于所具备的独特性质引起了科学家们的关注,并把其理论应用在物理、化学、材料、电子通信和现代军事等领域。而数字编码电磁超材料概念的提出,使得电磁超材料的设计变得灵活多变,实现更好的电磁特性以及更广的应用场景。数字编码电磁超材料通过编码序列的设计,对电磁波进行控制,最终实现RCS缩减。本文针对数字编码电磁超材料对电磁波的控制,在雷达散射截面缩减领域的应用进行研
学位
随着第五代移动通信(The 5th Generation Mobile communication System,5G)技术的广泛商业化及用户业务需求的快速增加,频谱短缺问题愈加严重。动态频谱共享(Dynamic Spectrum Sharing,DSS)机制可为海量异构用户提供动态频谱接入服务,提升系统频谱利用率,近年来备受学术界及工业界关注。为满足用户服务质量(Quality of Servi
学位
随着深度学习技术的蓬勃发展,对压缩感知重构算法的研究也逐渐扩展到基于数据驱动型和模型驱动型的深度学习类算法。其中,基于模型驱动的方案结合深度学习技术的学习能力与传统算法的收敛能力,将传统重构算法中的迭代过程展开成类似神经网络的层级结构,常被统称为深度展开。本文重点研究基于模型驱动重构算法的展开方式,主要工作如下:1.提出了两步深度展开的方法(Two-step Deep Unfolding,Tw D
学位
伴随着无线通信的快速发展,超高数据速率、低延迟、大规模连接和广域覆盖已经成为现代无线通信发展的代名词,但这也对已有的无线通信设备带来了巨大挑战。近几年,随着无人机(Unmanned Aerial Vehicle,UAV)产业的兴起,UAV在通信中的应用有效缓解了通信设备的压力。然而,UAV通信也面临着诸多挑战,由于无线信道具有广播的特性,这让无线通信很容易遭受窃听者的攻击,为了改善UAV通信系统的
学位
轨道角动量(Orbital Angular Momentum,OAM)因能在同一频点上复用传输多路正交信号,具有提升频谱效率和通信容量的潜力,被视为第六代移动通信的潜在关键技术。革命性挖掘OAM物理维度的前提是构建准确的OAM信道模型。目前OAM信道研究主要考虑视距和稀疏多径场景,大多构建以自由空间传输损耗为基础的传播模型。真实场景OAM多径信道测量数据较少,OAM信道特性表征不足,准确的OAM信
学位
呼吸率和心率作为人体重要的生理评估指标,为许多疾病的诊断提供有效的先验知识。然而,目前的研究大多集中在单人体目标生命体征的测量上,多人体目标生命体征的检测研究相对较少。本文提出使用调频连续波(Frequency Modulated Continuous Wave,FMCW)雷达进行非接触式多人体目标生命体征信号检测,主要研究内容如下:针对多人体目标之间存在干扰,无法准确检测和分离不同人体目标的问题
学位