基于多任务学习的长时序语音增强方法研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:lyzqwww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着互联网和计算机技术的迅速发展,人们对于智能化的人机交互需求越来越高。语音是人类社会交换信息的重要方式,也是人机交互的一个重要接口,在人类生活中起到了关键的作用。近年来,语音识别等技术作为语音交互的核心得到了广泛的关注。作为语音识别的前端处理工作,建立一个自动进行语音增强的系统就成了近年来的一个研究热点。主流的单通道语音增强模型采用长短时记忆网络进行时序建模,但它的时序建模能力不强,无法对长时间序列的语音信号进行有效的时序建模和全局上下文相关性建模,并且编解码器的卷积核尺寸单一,无法更高效的提取和还原高维特征。此外,单一的语音增强任务能够提取的语音特征有限,对于未知信噪比和说话人的情况泛化能力不强。鉴于以上的困难和挑战,本文对基于多任务学习的长时序语音增强方法进行研究,主要工作如下:(1)提出基于复数时序卷积和自注意力的长时序语音增强方法:该方法利用傅里叶变换后的实部和虚部的复数运算规则作为重要的先验信息,设计基于复数运算规则的一维时序卷积模块,通过从小到大的不同感受野的复数一维空洞卷积线性叠加,获得较大的时间维度局部感受野。同时,设计多头复数自注意力模块,对特征进行时间维度的全局上下文相关性建模。相比于LSTM,该方法可以更有效地进行长时序建模和全局上下文相关性建模;设计可选择核卷积编码器-解码器(Selective Kernel Convolutional Encoder-Decoder)的结构,在编解码阶段采用两种不同尺度的卷积核,每一个通道上提取动态的多尺度局部特征,提升编解码器提取和还原特征的能力。实验结果表明:相对现有方法,所提模型DCSKTSN在PESQ(Perceptual Evaluation of Speech Quality)、STOI(Short-Time Objective Intelligibility)等客观评价指标均有一定的提升。在TIMIT数据集中长度超过4秒的长时序语音上,所提模型的PESQ和STOI相对于LSTM分别提升0.1和2.27%。在VBD(Voice Bank+DEMAND)数据集上,相对于DCCRN,所提模型在PESQ、STOI、CSIG、COVL指标分别提升0.18、0.52、0.01和0.1。(2)提出基于多任务学习的语音增强方法:该方法引入多任务学习的思想,通过加入信噪比预测以及说话人分类的辅助任务,为语音增强任务提供额外的辅助信息,这些辅助信息是单一的语音增强任务无法学习得到的特征信息,可以让增强网络对于未知的信噪比和说话人情况具有更好的泛化能力和自适应能力。基于Conv-LSTM的消融实验验证了该方法的有效性。在与DCSKTSN模型结合以后,最终的模型在PESQ、CSIG、COVL指标上相比于现有方法取得0.77、0.49和0.64的性能提升。(3)设计并实现基于多任务学习的长时序语音增强原型系统:采用MATLAB设计原型系统的操作界面,利用Py Torch深度学习框架和Python程序设计语言设计核心算法。包含语音数据集上传、增强模型训练、增强语音波形可视化和播放等模块。其中,语音增强模型采用本文所提基于多任务学习的长时序语音增强方法。通过原型系统的实现验证所提方法的有效性和实用性。
其他文献
近年来,冷链产品问题频频发生,不仅损害了产品生产者的形象与信誉,也危害着消费者的身体健康,但传统的冷链溯源系统存在数据易被篡改等问题,无法保证信息的真实性。区块链技术具有去中心化、可追溯和去信任等天然特性,使其在冷链溯源方面有着广阔的发展应用前景。作为区块链技术的核心与重点,共识机制一直制约着区块链技术的实际场景应用,而如何就数据的正确性及一致性达成高效共识成为了区块链技术的突破点之一,共识机制的
学位
从传统汽车向智能网联汽车(Intelligent Connected Vehicles,ICVs)发展的过程中,部署在车内的控制器局域网络由于缺乏足够的防御措施,使ICVs面临的攻击不断增加,且攻击方式具有不确定性和多样性的特点。因此,研究ICVs防护方法,解决恶意攻击带来的信息安全威胁是一项极具挑战性的工作。基于深度学习的入侵检测系统(Deep Learning-based Intrusion
学位
水貂肠炎病毒(mink enteritis virus,MEV)是一种对环境抵抗力较强的单链DNA病毒,给全球水貂养殖业造成了巨大的经济损失。目前,MEV感染靶细胞的机制尚不清晰,使其防控异常困难。明确病毒的感染机制对制定有效的抗病毒策略非常重要。基于量子点的单病毒示踪技术因其可在活细胞中实现病毒粒子成像,目前已成为探究病毒侵入细胞分子机制的实用方法。本研究选取生物素(biotin)-链霉亲和素(
学位
知识图谱以图的形式描述客观世界中实体及其之间的关系,但目前知识图谱的图结构主要用于后台的数据逻辑处理,前端的应用并不是很充分,为此论文将图的可视化技术引入到知识图谱应用系统前端技术中,以提升用户视觉体验,使用户能够更直观、更高效地获取知识图谱的重要节点信息及主要结构特性。图的可视化技术以图中节点和边的合理布局为核心,目前主流的布局模型为基于力学引力和斥力作用的力导向模型,论文以该模型为基础模型,以
学位
目前,表征学习技术广泛应用于各种图像分类、目标检测和模式识别等深度学习任务,其很大程度上提升了此类深度学习方法的性能。但是针对特定的任务,只能使用特定的表征学习方法,所提取的表征在泛化性方面存在一定的局限。本文通过设计自监督生成模型来提取语义级表征,该表征相比传统的表征学习具有更好的复用性和可解释性,并且其辅助的下游分类任务或基于语义级表征的匹配模型均有一定程度的精度提升。本文致力于语义级表征学习
学位
肝癌作为消化系统恶性肿瘤之一,严重影响人类的健康。在治疗中,高剂量的化疗药物会导致严重的副作用。因此,开发新型的低副作用药物和寻求有效的治疗方法对肝癌的临床治疗具有重要意义。很多天然来源的小分子化合物具有选择性杀伤癌细胞、缓解耐药性和减轻化疗药物副作用的功能,已被开发为药物或化疗辅助性药物广泛应用于癌症的治疗。地榆皂苷Ⅱ作为地榆中三萜类化合物的主要活性成分,具有止血、止泻、抗肿瘤、抗糖尿病、抗菌和
学位
欧李(Cerasus humilis(Bge).Sok.)是我国特有的一种蔷薇科樱属多年生灌木,对盐碱、干旱和低温均有较强的抗性,果实可鲜食,具有重要的生态和经济价值。当前研究主要集中在新品种选育及鲜果加工,但欧李应对胁迫响应的分子机制尚不明确。本文以“农大4号”欧李品种为试验材料,研究欧李ChDREB2C转录因子的特性和耐盐性功能,主要研究结果如下:1.从欧李叶片中克隆了ChDREB2C基因,该
学位
水稻(Oryza sativa)的抽穗期,又叫水稻的开花时间,是水稻从播种到抽穗所需要的时间,它直接决定着水稻对光的利用率和水稻的产量。抽穗期作为数量性状受外源多因素及内源多基因的共同调控,其中包括许多光周期调控基因,以上因素构成复杂的调控网络。我国幅员辽阔,南北光照时间差异大,因此选育适合不同光照条件下的水稻品种是非常有必要的,这对扩大我国水稻的种植面积,提高水稻的产量具有重要意义。东北三省是我
学位
肠道作为人体内最大的免疫器官,其稳态平衡直接影响人体健康水平。在与食物及外界微生物大量接触过程中,肠道健康面临严重挑战。细胞内外各类刺激会激活肠道信号通路,通过调节肠道干细胞增殖和分化水平维持肠道稳态。果蝇肠道的形态、结构和功能与哺乳动物具有高度相似性,并且参与调节肠道内环境稳态的一系列信号通路在果蝇和哺乳动物之间高度保守。目前,果蝇肠道已成为探究肠道免疫、干细胞增殖和分化机制的理想模型。Rab蛋
学位
MicroRNA是广泛存在于真核生物中的重要的调节因子,在植物和动物中的研究发现其功能是多样的,并且在生物体内有着重要的调节功能,包括生长发育和逆境应答等众多方面。Aft(Anthocyanin fruit)型番茄LA1966是由原产智利的野生种番茄L.chilense与番茄栽培种L.esculentum杂交所得,其果实在未成熟阶段,可产生并积累花青素。本研究选用Aft型番茄为试材,对不同发育时期
学位