基于深度学习语音增强的改进算法

来源 :张敏 | 被引量 : 0次 | 上传用户:coffeedoly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音不仅是人与人之间最直接的交流方式,也是人机交互最常用的途径。但在日常生活中,由于噪声的存在,使得语音质量大大降低。进而导致人们的交流困难和人机交互的失败。语音增强技术能够提高带噪语音的声音品质,消除不必要的背景噪声,并减小语音失真。在移动通信、人工智能、公安侦查等诸多领域有广泛的应用。由于基于深度学习的有监督语音增强算法适用性强,不存在一些苛刻的限制条件。且对低信噪比或者非平稳条件下的语音具有更好的性能。鉴于此,本文主要以深度学习的语音增强算法为基础,并提出对应的改进算法,使其具有较高的质量和听觉感知度。所做的主要工作如下:(1)阐述了语音增强的研究背景和意义,还介绍了几种经典的语音增强方法,和常用的语音质量评价方法。并将影响基于深度学习语音增强算法性能的语音特征、学习目标、网络模型进行了分析。(2)提出了一种结合自适应软掩模和混合特征的语音增强算法,首先针对传统语音特征无法充分表征语音的内部结构信息、且没有考虑语音帧与帧之间的瞬息变换的问题,提出了一个混合特征参数,该混合特征参数首先将伽马通域与梅尔域的语音特征进行拼接,另外为了得到语音的瞬变信息,求取拼接后特征的一阶导数,并将拼接特征和其一阶导数结合构成混合特征。其次,将语音相位差信息融合到时频掩蔽计算中,并根据自身的语音信噪比进行自动调整,达到提高语音可懂度的目的。最后,通过多次实验证明:无论是在时域、频谱以及听觉感知等方面,改进的算法具有较好的语音质量和清晰度。(3)人耳听觉感知是评价语音质量的关键,针对基于深度学习中有监督的语音增强算法通常采用MSE作为损失函数,导致增强语音的可懂度不高的问题,提出了一种基于联合损失函数的语音增强优化算法,该联合损失函数由频域加权分段信噪比(fwSNRseg)和ωMSE构成,并选用含有语音相位差信息的时频掩蔽值作为两者的权重因子,使其具有人耳的听觉感知特性;其次,将注意力机制引入语音增强的过程中,使之能提取到更有效的语音特征;最后,通过在不同背景噪声下对改进算法进行实验,结果表明:采用联合损失函数并加入自注意力机制可使语音的评价指标都有不同程度的提高。
其他文献
在我国,洗钱罪上游犯罪范围的争议由来已久。《刑法》规定的洗钱罪的上游犯罪范围符合实践需要,无需扩容。以黑社会性质组织和恐怖活动的形式实施的一般财产犯罪应包括在洗钱罪的上游犯罪之内。非国家工作人员的职务犯罪因与贪污贿赂犯罪具有不同的性质,故其不应作为洗钱罪的上游犯罪。上游犯罪所得及其收益是洗钱罪的行为对象,对洗钱罪的认定具有重要意义。犯罪所得包括因犯罪直接获得的财产、犯罪的报酬。而犯罪所得的收益包括
学位
物联网技术虽然在最近几年迅速发展和普及,但是物联网设备始终缺乏原始安全性。由于物联网设备数量众多并且安全性低,所以容易发生各种类型的攻击,其中大多数是基于僵尸网络的攻击,物联网僵尸网络已经变成一个危害网络安全的主要元凶,而僵尸网络的检测是进行安全防御的第一步,于是本文将物联网僵尸网络的检测作为研究目标,旨在提升网络安全。面向物联网僵尸网络时,目前已经提出的检测方法大部分集中于僵尸网络的攻击阶段,采
学位
就业是民生之本,是发展之基。建立起科学有效的稳就业政策体系,积极推进各项就业政策,是不断完善我国社会保障事业的题中之义。就业工作加速推进,还应进一步匹配失业保险制度完善,历经了30多年的探索,我国失业保险制度在经济发展中发挥了巨大功效,保证了稳定的就业环境及有效的再就业空间。但同时,当国家社会直面系统性风险与基本面冲击时,如全球突发的新冠肺炎疫情,经济发展遭遇叫停的困境、企业破产进而导致大量职工遭
学位
海上风机常处在地震、风浪等引起的复杂环境荷载中,细长的结构特点使得其对质量、刚度分布和振动频率十分敏感,海上风机在地震作用下的动力研究是其抗震设计的基础,对工程有着重要价值。Rayleigh波是一种在层状介质中以复合模态传播的界面波,由于各层弹性性质不同,建立的特征方程包含一些周期函数,且有时为复数方程,加大了求解难度。本文建立了Rayleigh波作用下层状海床中桩承式风机计算模型,旨在分析层状地
学位
语音情感识别致力于让机器理解人类语音中包含的情感,以达到更为自然地人机交互,是当前人工智能领域的一大研究热点。语音情感识别模型一般包括情感语音数据、情感特征以及分类器三个模块,其中,情感特征是整个模型中的重要组成部分。目前常用的情感特征分为两类:声学特征与语谱图。但是,这些特征都是语音信号的浅层表征,并不能表征语音信号的深层次特性。深度学习可解决此问题,将特征提取与深度学习结合可获得表征能力更强的
学位
情感识别技术在智能化人机交互中起着至关重要的作用,让机器具有类似人一样的情感感知能力,能够更好的服务于人们的日常生活。在众多可用于研究情感识别的信号中,脑电信号是通过神经元的放电现象产生的一种生理电信号,具有测量简单、可移动、不易伪装等优点,能够客观真实的反映人们的情感状态,因此被广泛应用于情感识别的研究中。然而,脑电信号的采集使用的是多通道的电极采集帽,造成脑电信号的高维特性,在进行情感识别时,
学位
综采设备操纵系统在智能工作面煤炭开采过程中起着控制综采设备运行的重要作用,合理的操纵系统能够有效提升工人的工作效率,保证煤矿安全生产和工人生命安全。目前,综采设备操纵系统主要是由集控中心的操纵人员通过对控制面板或现场巡检人员通过对电液控制器的操纵等方式来实现的,相关设备生产企业对于综采设备的设计研究主要集中在综采设备功能的设计与优化方面,对综采设备的操纵系统的人机研究甚少,致使综采设备的操纵系统在
学位
智能化开采是煤炭综采技术发展的新阶段,也是煤炭工业技术革命和升级发展的必然要求。综采工作面“三机”实现协同自动化动作是提高煤矿井下生产效率和安全性的有效途径。液压支架跟随采煤机的移动自动推移刮板输送机,且保持刮板输送机沿工作面的直线度,是实现智能化工作面最为基础和关键的技术。目前液压支架多泵联合长距离供液,系统压力波动和冲击大,难以实现工作面刮板输送机的精确位置控制,严重影响工作面的直线度控制,成
学位
近年来,量化投资方法风靡证券投资界,通过成立量化基金,基于统计套利方法,机构投资者在国内外各金融市场上实现了稳定的收益,同时将投资风险控制在较低水平上。由于具有收益稳定、风险较低的特性,量化统计套利方法在国内外资本市场上得到了广泛的应用,其便利性、机械性和准确性等优势同样是传统套利投资策略远远不能相及的。基于代表性和创新性,本文选取交易规模位居世界前列的上海国际能源交易中心原油期货合约(INE原油
学位
综采工作面是煤矿生产的主要环节,也是事故发生的高危区域。目前对于综采工作面的智能化研究已经取得了很大的进步,也实现了初步应用,大幅减少了作业人员的数量,但还是不能达到令人满意的程度。因此关于综采工作面的研究对智慧矿山和少人化、无人化绿色生产的实现具有十分重要的意义。虚拟现实技术作为新兴的技术手段,具有沉浸性、交互性和多感知性的特点,是数字孪生智采工作面构建的支撑技术。结合虚拟现实技术与综采工作面生
学位