【摘 要】
:
语音增强任务可以分为干扰抑制和声源分离两大类任务,是当今语音信号处理领域重点研究方向之一,同时也是自然语言处理关键前端技术之一,具有重要的研究价值。由于传统语音增强算法对信号做出的假设限制了其应用场景,具有强泛化能力的神经网络算法成为了主流的算法。为此,本文主要围绕基于神经网络的语音增强算法展开了一系列研究。1)针对干扰抑制问题,以时域卷积神经网络作为基础结构,重点考察了掩蔽机制、优化准则、残差块
论文部分内容阅读
语音增强任务可以分为干扰抑制和声源分离两大类任务,是当今语音信号处理领域重点研究方向之一,同时也是自然语言处理关键前端技术之一,具有重要的研究价值。由于传统语音增强算法对信号做出的假设限制了其应用场景,具有强泛化能力的神经网络算法成为了主流的算法。为此,本文主要围绕基于神经网络的语音增强算法展开了一系列研究。1)针对干扰抑制问题,以时域卷积神经网络作为基础结构,重点考察了掩蔽机制、优化准则、残差块结构等因素对标准干扰抑制神经网络的性能影响。通过结合一维化的倒置瓶颈层和带洞卷积算法,本文给出了基本干扰抑制模型。同时,通过分析目前主流损失函数提供的优化方向,提出了基于波形的角度距离的优化准则。对比实验表明,相较于基线模型,所提干扰抑制模型产生了 0.2dB的尺度不变信噪比增益。2)为进一步提高所提干扰抑制模型的重构语音质量,结合参考信息与该模型形成了自适应神经网络。该网络包含了骨架网络与参考信息提取器两部分。两者组成的干扰抑制系统具有自适应的特性,能够根据输入语音的特性自动调整部分特征,二者结合用于干扰抑制。仿真实验表明,自适应网络与具有同等参数规模的干扰抑制模型相比有0.38 dB的尺度不变信噪比增益,并且在客观语音质量评估与短时客观可懂度百分比指标上,所提模型相比于基线模型分别有着0.08和0.87的增益。3)针对说话人数量未知且可变的声源分离任务,本文在自适应神经网络的基础上研究了声源计数和分离算法,实现了输出数目可变的声源分离系统。所提模型是一种能够同时产生时频级别的嵌入特征与声源质心的参考信息提取器,以规避深度聚类算法中的聚类操作。同时,利用其质心估计模块可微的特性,提出了动量对比训练算法使得无效的质心得以聚集,并按照阈值去除。仿真结果表明,所提系统可在一定程度上解决声源计数问题,其中声源数目估计准确率达到了95.71%,且输出语音质量比基线模型有着接近的1.12 dB的尺度不变信噪比改善。
其他文献
随着互联网的发展,JavaScript作为一种功能完备的脚本语言,被广泛地应用于Web网站开发,但是由于这种程序语言具有动态执行、不依赖于平台等特性,在给开发工作带来便利的同时,也造成了严重的安全隐患,比如黑客们极易利用浏览器及插件的漏洞进行恶意代码的编写与执行。网络攻击技术的快速更新和迭代泛滥已经严重危害到广大用户的安全,因此面对严峻的网络空间安全现状,我们亟需对JavaScript的代码安全进
随着移动互联网的快速发展,移动应用程序逐渐改变了人们的日常生活方式。在应用市场中的应用数量指数级增长的同时,应用安全设计缺陷和恶意程序的增长也带来了严重的安全威胁,对当前移动应用自动化测试技术提出了挑战。当前,国内Android应用市场中应用功能日益丰富,不仅限于社交类应用,用户与应用之间、用户与用户之间的关联越来越紧密。国内多数应用都涉及了用户账号的注册和登录功能,部分应用核心功能与用户账号紧密
语义分割是智能驾驶领域目前仍具挑战性的重要研究问题之一,使用深度学模型处理语义分割任务已为学术以及应用界的主流。对于语义分割任务,在图像建模过程中考察图像的二维序列关系可以显著地提高深度学习模型的性能,在此基础上,非局部模块以及其他形式的注意力模块得以提出。本文的研究内容重点关注了基于注意力机制的图像序列关系建模以及损失函数的设计及改良,主要内容如下:1.针对图像序列关系建模问题引入注意力机制,利
随着互联网的发展,信息过载成为人们获取感兴趣内容的一个重大挑战。推荐系统作为信息过滤系统的一个子集,能够根据用户本身的属性信息以及商品的历史交互记录来挖掘用户潜在的兴趣爱好与需求,大大减少了用户筛选信息的时间,对于提升用户体验、缓解信息过载问题有很大的帮助。传统的推荐算法通常只考虑了用户和商品的直接交互这种规则的欧几里得数据而往往忽略了实际场景中用户和用户关联,商品和商品关联等等构成的错综复杂的图
近年来,越来越多的应用要求低延迟和高处理能力。移动设备有限的计算能力限制了其在复杂移动应用中的性能。将任务计算机会地卸载到边缘服务器上,可以减少移动设备上的计算负担,提高移动终端的续航时间。然而,由于用户的移动性,网络中边缘服务器上的计算负载会变得不平衡。因此,针对用户移动性异常检测和基于用户移动性进行计算卸载流量均衡,成为一个迫切需要解决的问题。本文在移动无线接入网络场景下,针对用户移动性异常检
近几年以来,随着智能语音设备的普及,人们对语音降噪的需求日益增加,语音增强算法的作用也日益彰显。其中基于深度学习的语音增强算法显示出了巨大的潜力,极大地提高了语音降噪的能力,但是同时也存在着很多问题和挑战,例如通过引入密集连接卷积网络(Dense Convolutional Network,DenseNet)可以提高模型的性能,但是也存在参数利用不充分的问题;损失函数和评估指标不匹配,常用的损失函
互联网技术的快速发展,为人类生产和生活提供极大便利的同时,也带来了巨大的网络安全挑战。渗透测试技术通过模拟黑客攻击方法来检测系统漏洞,可以快速发现网络安全问题,避免造成不可逆损失。近年来,网络安全行业高速发展,涌现出了众多渗透测试工具,大大方便了渗透测试人员对企业网络进行安全性测试的工作。但是,大多数工具只能针对可以直接访问的网络进行渗透测试,而绝大部分安全问题往往存在于测试工具无法直接访问的内部
近年来,随着网络通信技术的发展、5G(5th generation mobile networks,5G)的商业化以及相关设备的升级换代,虚拟现实(Virtual Reality,VR)服务和应用得到了极大的发展。在VR视频业务的应用场景中,360°全景视频的数据传输量通常是传统视频的数倍以上,且由于用户的QoE(Quality of Experience,QoE)要求时延极低,网络中基站面临的压
风险控制系统的建设逐渐变成了互联网金融行业的核心问题与研究热点。风控系统是指能够为风控策略管理人员提供风控策略配置功能,并且能够将风控策略转换为风控服务的软件系统。但是当前已知文献中的风险控制系统建设存在以下问题:1)目前国内外相关文献的研究主要集中于风险控制理论、大数据挖掘、人工智能模型技术、业务架构等,而系统落地实现方面很少有研究,现有的风险控制系统大多数基于自身特定场景下定制化开发,通用性较
近年来,地空通信作为第五代移动通信网络(Fifth Generation of Mobile Networks,5G)中智能交通系统的重要组成部分,受到了学术界和产业界的高度关注。为了对地空通信系统进行方案设计和性能评估,地空场景下非平稳随机信道模型的研究与实现至关重要。地空信道复杂多变,其非平稳特性难以使用平稳的随机过程描述,Markov非平稳信道模型能很好地模拟真实地空信道信号衰落包络在时间轴