基于深度学习的场景匹配语音增强方法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wisdom76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强技术旨在从带噪语音信号中提取尽可能纯净的原始语音信号,并在保证语音信号质量的条件下,降低时延,使语音交互更加高效。目前,基于卷积神经网络等深度学习算法的语音增强方法凭借其稳定的降噪性能逐渐成为主流,并取得了令人瞩目的成绩。然而,绝大多数基于卷积神经网络架构的语音增强算法都存在多尺度编码特征利用不充分、算法时延高等问题。本文针对以上问题进行了研究并提出了改进方法。首先,绝大多数基于卷积神经网络编解码架构的语音增强算法都没有充分利用多尺度编码特征信息,而最新的工作表明,多尺度编码特征有利于解码器恢复特征图像,从而得到干净的语音信号。本文根据以上信息提出了一种基于通道注意力机制的多尺度特征融合语音增强方法CA-MMFUNet。实验结果表明,CA-MMFUNet能够筛选并充分利用有效的多尺度编码特征,在多个降噪指标上均超越了所对比的方法,有显著的降噪效果。其次,基于通道注意力机制的多尺度特征融合语音增强方法对比基础模型增加了额外的卷积结构,间接导致模型出现推理时延增加的问题。对于此问题,传统做法通常是使用模型压缩技术减少模型参数。然而,模型压缩通常会使模型的性能下降,无法在提高语音增强质量的同时降低模型的时延。本文受集成学习思想启发,提出了一种可以根据噪声环境自动选择合适的基降噪模型的场景匹配语音增强方法SMSE。实验结果表明,SMSE能够组合多个弱降噪模型形成强降噪模型,不仅在多个语音增强质量指标上超越了所对比方法,同时模型推理时延也有显著降低。此外,本文在实现场景匹配语音增强方法的过程中,对声音场景分类方法进行了深入研究,提出一种基于空洞卷积和注意力机制的音频场景分类方法DCTransformer。DCTransformer能够利用空洞卷积充分地提取音频特征,并克服Transformer分类模型存在的全局信息利用不充分问题,在Urbansound8K公开数据集上的分类准确率取得了88.54%的效果。
其他文献
情绪识别技术在人机交互、医学应用等领域具有广阔的应用前景。赋予计算机理解人类情绪的能力将使得计算机在各种应用中更有意义和强大。皮肤电势(Skin Potential,SP)信号是一种记录皮肤电反应过程的生理信号,在过去曾被证实与人类情绪有关,可能具备应用于情绪识别领域的潜力。然而,一直以来对该信号关注的不足导致其缺乏深入系统的研究。基于此,本文对皮肤电势信号的性质特征进行了研究并提出了一种基于皮肤
学位
图像着色课题的研究目标是对灰度图像或黑白线稿添加颜色,可以应用于医学影像着色、老照片色彩重建、漫画线稿着色等场景,具有丰富的实际应用价值。近年来,受到深度学习发展的推动,出现了许多出色的着色模型,但是其着色结果仍存在着颜色混杂、溢出和细节缺失等问题。因此,本文针对漫画线稿着色这一应用场景及当前主流着色算法存在的问题,提出了两种基于生成对抗网络的交互式线稿着色方法,可以根据参考图像的颜色分布对漫画线
学位
随着生活水平的提高和日益增长的需求,用户对端到端时延、峰值速率和移动性等有了更苛刻的要求,新一代通信技术(5G)应运而生。面对如此多样化的性能需求,3GPP组织确定了5G三大主要的应用场景:增强型移动宽带(e MBB)、大规模机器类通信(m MTC)和超可靠与低时延通信(URLLC),并且将LDPC码和极化码作为e MBB场景的信道编码方案。在2019年底后续演进方案中,Release-17标准明
学位
上世纪80年代,研究人员提出了传输控制协议(Transmission Control Protocol,TCP)并在网络中得到了极为广泛的应用。拥塞控制是TCP协议的关键组成部分,目的在于在避免拥塞的前提下保持尽量高的网络利用率。既往的传统拥塞控制方法多数为基于规则的方法,不能很好地适应当前高度动态的网络环境。深度强化学习(Deep Reinforcement Learning,DRL)具有自主探
学位
随着传感器、芯片、人工智能算法等技术的发展,自动驾驶逐渐成为热点。同步定位与建图(Simultaneous Localization and Mapping,SLAM)是自动驾驶系统中智能导航和环境探索的基础。SLAM可被分为里程计(前端)、后端优化、回环检测和建图四个模块。本文主要关注后端优化和回环检测,针对实际场景下如何融合多传感器信息估计出误差小、一致性强的运动轨迹以及如何提升现有回环检测算
学位
基本问题是围绕学科大概念设计的,目标是追求真正的“理解”。在指向学科大概念的基本问题的使用过程中,学生通过实践、质疑、合作、探究等方式阅读与表达,不断建构语文学科思维。在指向元认知的基本问题的使用过程中,学生通过反思、总结、评估等方式不断完善学习品质和学习方法。基本问题的设置和使用能帮助学生在深度学习中提高认知能力和学习品质,但课堂并不是学习的终点,随着未来对基本问题的追问与思考,一切还将不断深入
期刊
分布式控制的多智能体系统(Multi-Agent Systems,MASs)具有灵活性强、鲁棒性好等优势,但在机器人、无人机等集群系统中往往受到计算能力、通信环境、能量消耗等限制。如何设计以任务为驱动的计算和高效利用通信资源的机理成为亟待解决的关键科学问题。近年来,人工智能和脑启发智能技术的不断发展为多智能体执行协同任务提供了新的研究思路。因此,本文研究如何使用脑启发的认知仿生机制建立相应的系统模
学位
数学学习活动应该是一个跳跃性思维和个性化的过程。数学教学活动应关注学生的专业知识和直接经验。教师的角色应该随机而变化。根据特色的教学内容,应采用灵活巧妙的教学方法,积极充分地发挥学生的主导作用,组织和引导学生独立学习,培养学生良好的学习习惯,促进学生思维能力和学习能力的提高和发展。
会议
生态学理论的引进,改变了风景园林设计的理念和方式,并对风景园林设计的景观形象产生了影响。阐述风景园林建设的必要和风景园林设计引入生态学理论的必要,展开说明与风景园林设计相关的五大生态学理论,最后通过项目案例详细说明风景园林设计过程中体现和渗透生态学理论的方式,期望为项目设计过程中如何更好地运用生态学理论提供参考。
期刊
高职校园安全管理对学生的成长成才有着非常重要的作用。只有在安全的校园里,学生才能安心学习,掌握更多的知识和技能,才能为国家的建设做出应有的贡献。深入研究高职校园安全管理的策略,希望能进一步丰富高职校园安全治理的理论,同时能为高职院校校园安全提供有益的启示,具有一定的理论和现实意义。结合工作,通过对南宁某高职的校园安全进行调研,利用现有校园安全管理的数据,使用文献研究法,发现当前高职校园安全的通病,
期刊