基于深度学习的语音增强算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:chen1155588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常的听觉环境中,语音信号会受到房间混响和背景噪声的干扰,这些干扰严重降低了自动语音识别(Automatic Speech Recognition,ASR)系统的性能。传统的语音增强算法往往需要对语音信号作出假设,但是面对复杂多变的声学场景时,传统的语音增强算法性能会急剧下降。随着深度学习的快速发展,语音增强算法逐渐发生了变化。因此,本文基于深度学习对背景噪声和房间混响进行研究。其主要研究内容如下:首先,针对噪声和混响同时存在的声学场景,过去的方法往往会忽视噪声和混响的性质差异。因此,本文提出了时域两阶段神经网络同时降噪和去混响的算法,其依据干扰信号的性质差异将噪声和混响分为两个阶段处理,即降噪阶段和去混响阶段。该算法需要对两个阶段的网络分别进行训练,保留训练的权重参数及相关配置,并进一步移植到时域两阶段网络中进行联合训练。另外,该算法在时域对噪声和混响进行处理,不需要对语音信号进行额外的变换,避免了在信号变换的过程中造成有用信息的丢失。通过对实验数据的分析,时域两阶段网络相比于单级网络和频域网络,能够获得更高的主观语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short Time Objective Intelligibility,STOI)得分。其次,大多数语音降噪算法主要针对采样率为16 k Hz的语音信号。随着采样率的提高,语音信号的频带数量和宽度也会随之增加。由于语音信号的高频分量建模极为困难,导致了针对高采样率语音信号的降噪算法研究很少。因此,本文基于复数神经网络开发了针对采样率为32 k Hz的语音降噪算法。为了更好地建模不同的频带,本文提出的算法使用了分频网络分别提取语音信号的高频分量和低频分量。与此同时,在分频网络的基础上引进了加权训练损失函数,通过可变的加权因子来控制损失函数的比重,进一步提升了网络的性能。且所提出算法获得的PESQ和STOI得分明显高于现有的算法,这表明了分频处理和加权损失函数的有效性。
其他文献
随着网络技术的飞速发展,网络安全问题屡见不鲜,当务之急是提供一种安全有效的网络防御机制。入侵检测提供一种主动的安全防御策略,已经成为当今众多研究者的热门研究课题。网络入侵数据存在类别失衡问题,不同类别样本数量差距过大会导致分类器对少数类别的检测率低;此外,大部分网络入侵检测方法对网络数据的空时特征提取不足,入侵检测性能有待改善。针对网络数据样本类别间数量差距过大,而导致模型对少数攻击类别检测率过低
学位
随着物联网技术的日益成熟,物理空间与信息空间的界限进一步缩小,人、机、物的联系更加紧密。同时,随着携带感知设备的海量物联网实体的广泛部署,由感知设备观测产生的物联网实体数据也呈现爆炸式增长,面对如此海量的数据以及用户个性化、多样化的实体感知需求,借助适当的推荐技术可以及时、准确地为用户提供所需的物理实体信息。然而,当前已有的物联网推荐方法未能从用户的个性化角度出发设计推荐方法,从而未提出个性化的物
学位
自由空间光通信(Free Space Optical Communication,FSOC)技术是一种在激光上搭载信息进行传输的新型通信技术,因其拥有宽广的频谱、高速的信息传输速率以及良好的保密性能等优点而受到广泛关注。但是,由于光通信系统以大气为传输媒介,因此光束会受到大气湍流的影响,造成光强起伏、相位畸变等问题,严重影响通信的质量和稳定性。为了解决上述问题,研究人员开发了许多技术,其中,无波前
学位
星地融合网络(Satellite-Terrestrial Integrated Networks,STIN)凭借覆盖范围广、通信容量大、传输能力强等优势,有望实现全球覆盖与宽带接入,正成为当前研究热点。然而,STIN的网络异构复杂性与拓扑时变动态性导致了相比于地面更为频繁的链路切换问题,也增加了有效切换方案的设计难度。因此,如何在复杂STIN环境下设计合理有效的切换管理方案是亟待解决的关键问题。本
学位
随着通信体系的发展,越来越多的应用场景需要可靠的传输,信道编码在保证高质量通信中发挥着不可磨灭的作用。对于具有优秀纠错性能的低密度奇偶校验(Low-Density Parity-Check,LDPC)码,目前聚焦于准循环(Quasi-Cyclic,QC)LDPC码,其校验矩阵可用移位系数表示。在实际存储中,循环矩阵可以用移位系数存储在寄存器中,降低了硬件成本,因此得到了广泛的研究。针对QC-LDP
学位
目的 了解2015—2020年杭州市危重孕产妇发生情况和危重症类型,为危重孕产妇的早期识别和干预提供参考。方法 通过国家危重孕产妇监测网络直报系统收集2015—2020年杭州市5家医院的危重孕产妇资料,描述性分析危重孕产妇发生率、死亡率、妊娠合并症/并发症和危重症类型。结果 2015—2020年杭州市5家监测医院收治住院孕产妇230 490人,活产数182 514人,患妊娠合并症/并发症177 4
期刊
当前社会存在人口老龄化、医护人员紧缺、传染性疾病等问题,使自动化等技术有重大需求。本项目组研发了一款自动化采血装置,以实现指端自动化静脉采血。由于手指静脉位于皮下组织,准确定位静脉采血点至关重要。因此,手指静脉图像分割成为重要研究内容。考虑到指端自动化静脉采血装置实际应用时,初期获取的手指静脉图像样本量较少,中后期将会积累到足够多的样本量,能够支撑深度学习模型的训练。因此,本文针对小样本量和大样本
学位
移动通信领域正在经历重大变革,国际通信组织在积极开展第五代移动通信技术(The 5th Generation Mobile communication,5G)概念的标准演进工作,全球国家和主要运营商都加大了对5G的研发与投入,设计和实现一款高效5G终端模拟器来测试更新后标准的新功能和新特性具有重大意义。确保终端快速注册上网,进行安全信令交互,且以保证会话质量进行数据传输是实现高效终端模拟设备的必要
学位
Sm2Co17型磁体因其较高的磁性能和优秀的温度稳定性而受到广泛关注。本课题组通过改进配方、优化回火工艺和添加氧化物等方式,制备了一系列高磁能积和高使用温度Sm2Co17型磁体。通过优化Fe含量,成功制备了最大磁能积(BH)max为32.4MGOe的磁体[1]。随后进一步优化工艺,将(BH)max提升到33.3MGOe。在此基础上引入Sm2O3粉末,在Sm2O3和基体相的界面诱导出富Cu、Zr,贫
会议
随着飞机乘客数量的增加以及智能终端设备中移动业务的广泛拓展,人们对于航空通信系统中大容量、高速率的网络需求日益增加。为满足空地通信系统日益增长的高质量通信业务需求,大规模MIMO技术受到人们的广泛关注。通过在基站端配置大量天线阵列,可以显著提升数据传输速率,并将该技术与波束成形技术相结合,使基站发射的能量更加集中,进一步提升了系统的整体性能。因此,本文针对空地通信场景下的波束成形方法以及波束覆盖范
学位