单通道端到端目标语音提取模型研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:wumin0371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标语音提取技术旨在借助参考信息从混合数据中提取出目标语音,为语音识别、分类等领域提供前端处理的技术支持。随着人工智能的产业化发展,智能语音技术在智能家居、办公会议、语音交互机器等领域具有广阔的发展前景。上述应用需求往往对语音的感知质量和可懂度提出严格的要求,然而语音不可避免地会受到各种人声或噪音污染,这使目标语音提取技术迎来新的机遇和挑战。由于人声干扰存在复杂未知性,如何从多人重叠语音中准确稳定地提取出纯净目标语音是一个亟需解决的难题。另外,大多数语音提取模型只针对单一重叠语音场景进行优化,难以推广到更为复杂的日常提取任务。为此,本文结合各种实际场景需求,致力于研究兼具高性能、强泛化能力和强鲁棒性的单通道端到端目标语音提取模型,具体工作内容和贡献如下:(1)针对如何从目标活跃的多人混合语音中准确提取纯净目标语音的问题,提出一种基于改进双路径循环神经网络的单通道目标语音提取模型。设计改进的双路径网络作为语音提取主网络,在块内和块间维度上充分融合输入特征和嵌入信息,提升模型的说话人适应性;并充分利用块内局部信息和块间全局信息,解决了长语句级别序列的全局建模问题,提高模型从混合特征构建出目标语音的提取能力。与现有模型相比,实验结果表明所提模型能够更加准确稳定地从多人重叠语音中提取目标语音,且在不同说话人条件下表现出较显著的泛化能力。(2)针对如何从目标状态变化的实际混合场景中有效提取理想目标语音的问题,提出一种结合目标语音活动检测的通用目标语音提取模型。引入目标语音活动检测任务,辅助模型识别目标活跃状态,保证提取高质量目标语音的同时,有效适应多种日常语音提取条件。另外,结合预训练和微调组合训练方式,提出一种引入比例权重的多任务损失函数,旨在缓解静音样本对模型训练的负面影响,优化不同条件的联合训练。实验结果证明,所提模型能够有效实现多种混合条件的高质量语音提取任务,尤其在目标缺席情形,消除了大部分非目标语音能量,具有适应不同目标状态的鲁棒性。
其他文献
在信息化时代,在线社交网络成为了人们获取和传递信息的重要渠道,理解和预测微博等在线社交平台上内容传播过程已经成为了业界和学界关注的重点。内容传播预测不仅可应用于社交网络推荐、谣言控制、舆论治理、社会计算分析等领域,还有利于探究内容传播的内在机制、用户和内容之间复杂交互关系等问题。微博内容传播预测的目标是根据一条内容的早期转发动态预测其将来的流行度或传播规模。现有的基于特征设计、生成过程、扩散过程、
学位
半导体行业是信息化时代的核心产业,晶圆制造作为其中的关键环节,在半导体行业的发展中起到关键的作用。晶圆图是在晶圆测试阶段对晶粒进行检测并标记,形成的具有一定空间图案的图像。通过对晶圆图的空间图案进行分析和归类,可以找出晶圆缺陷产生的原因,从而提高晶圆的生产良率。然而,随着晶圆尺寸增大、线宽变小,导致出现混合缺陷模式晶圆图的机率增加,且混合缺陷模式晶圆图相较于单一缺陷模式晶圆图更加难以识别分类。因此
学位
随着我国大型基建设施数量的快速增加,温度监测作为大型基础建设结构健康监测的重要组成部分越来越受到重视。通过对大型基础建设的温度变化进行监测,可以推测出由温度变化引起的结构损伤和形变对于基础设施的可靠性影响。同时,温度监测也被广泛应用于天然气管道和石油管道健康监测、电力负载实时在线监测和煤矿安全生产监测,通过温度监测可以有效避免管道泄露、火灾和其他安全事故的发生。光纤温度传感系统作为光纤传感技术中最
学位
核桃(Juglans regia)是集营养、药用、材用等多种经济价值于一身的重要"木本油料"生态树种。我国是核桃的起源中心之一,种植面积和产量位居世界前列。但我国核桃受炭疽病危害严重,该病主要危害果实,发病严重时整个果实发黑腐烂,引起落果或果仁干瘪,造成减产30%以上;同时该病还危害叶片、嫩枝、芽、苗木等,危害叶片严重时可引起全叶枯黄脱落,严重影响我国核桃产业的健康持续发展。而目前主要通过化学防治
会议
双频激光干涉测量技术广泛应用于光刻机运动台位移测量过程中。随着光刻机制程的提高,对激光干涉测量性能的要求也不断增加。双频激光干涉测量技术将被测物体的运动信息调制到光信号中,以光的波长为基准、通过检测光信号的相位变化实现精确的非接触位移测量,对信号相位检测的精度决定其位移测量的精确度。本文详细调研了20MHz频差的双频激光干涉测量信号的信号处理需求,并进行针对性设计:设计高带宽高增益低噪声的光电信号
学位
随着InSAR技术的不断成熟和SAR数据获取能力不断提高,InSAR技术逐渐成为高效的地面沉降监测技术。基于InSAR技术的地面沉降监测应用逐年增多,但多为局部小区域应用。本文从InSAR技术选择、SAR数据选用、沉降成果修正与拼接等方面介绍了大区域地面沉降监测中的关键技术方法,并以山东省鲁西、鲁北地区近10万km~2区域为例,开展了大区域地面沉降监测实践应用。
期刊
在现代信息社会中,图像是存储和传播信息的重要手段,能够让人直观地感知信息。在如今人们的工作和生活中,图像已成为感知世界信息不可缺失的一部分。随着生活质量的提高,人们对图像的质量提出更高标准。图像超分辨率技术的出现,能够在有限的设备条件下改善图像质量,满足遥感成像、医疗诊断、天文观测等诸多领域的需求,越来越受到人们的重视。近几年,计算机技术的不断革新推动了深度学习的发展。基于深度学习的超分辨率方法效
学位
本文基于AOI晶圆检测设备中的视觉系统、运动系统和气动系统进行边缘对准研究。本文设计了边缘对准方案,并完成总体结构设计。设计了Recipe模型用于晶圆预处理流程,利用图像处理算法进行晶圆圆心定位与缺口定位。最终设计了晶圆边缘对准实验方案验证系统精度。论文工作具体如下:1.晶圆边缘对准系统的研究。分析比较了当前常用的边缘对准方案与流程,增加晶圆预处理流程用来处理边缘对准,从而节省工作流程的时间。视觉
学位
截至2020年末,全国公路通车总里程达到519.81万公里,是1984年末的5.6倍。路面质量信息的自动化获取与分析对于未来路面养护至关重要,而路面纹理是路面质量信息最重要的特征之一。传统的对路面纹理进行评价的方法大多依赖有限测试点的人工操作机械量测结果,只能进行有限的局部定性分析。车载激光线扫描设备可实时采集高精度的路面高程数据,为自动化地分析路面纹理提供了数据基础,但是这些数据中存在路面宏观起
学位
随着深度学习技术在智能驾驶领域的快速发展,针对交警手势检测识别技术的需求已呈现出巨大的研究意义。在交警手势识别任务中,对交警骨骼特征提取的快速性,以及对连续动作识别的准确性,是研究需要攻克的关键问题。本文针对交警动态手势识别的实际需求,基于深度学习技术,开展对交警姿态估计与动作识别算法的改进和研究。主要工作内容如下:针对交警姿态估计算法存在的特征提取困难、检测速度缓慢等问题,本文提出一种改进Ope
学位