基于浮值掩蔽的完全卷积神经网络语音增强系统

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:hsu_mike
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:为了解决卷积神经(CNN)在语音增强中语音清晰度较差的问题,在卷积神经(CNN)语音增强的基础上,提出了基于浮值掩蔽的完全卷积神经网络语音增强系统。该系统首先采从带噪语声特征输入完全卷积神经网络中,以理想浮值掩蔽作为训练标签,估计出带噪语音理想掩蔽值,其次,将理想掩蔽值与带噪语音相乘作为幅度谱。最后将带噪语音相位谱与幅度谱进行反短时傅里叶变换(ISTFT),得到增强语音。实验结果表明,在PESQ标准下,在SNR分别为-12,-6,0,6,-12dB情况下,该系统性能分别提升了11.5%,12.5%,17.2%,11.8%,11.5%提升效果明显。
  关键词:语音增强;完全卷积神经网络;浮值掩蔽;单声道
  1 引言
  随着NLP方向人工智能技术的发展,语音识别技术达到了一个新的阶段,各式各样较成熟的语音助手使得人机交互的变得越来越容易。但实际应用时,由于采集设备和传输过程中的干扰,往往无法得到较清晰的语音信息,对语音识别结果造成较大干扰。本研究构建了基于完全神经网络的理想浮值掩蔽系统。利用去除全连接层的卷积神经网络来估计掩蔽值。其次,将理想掩蔽值与带噪语音相乘作为幅度谱。最后将带噪语音相位谱与幅度谱进行反短时傅里叶变换(ISTFT),得到增强语音。
  2 算法介绍
  假设,其中、、分别代表带噪语音、干净语音、噪声的时域信号。对上式进行短时傅里叶变换,再将短时傅里叶变换的频谱分为不同的时-频单元,假设、、分别为x(n)、s(n)、n(n)在(t,f)时-频单元的表示。
  理想浮值掩模的定义式如下:
  其中、分别表示在(t,f)时-频单元中的信号能量和噪声能量,β为可调的系数通常设置为0.5。为信号能量与噪声能量的线性比值。的取值范围为[0,1]。M(t,f)表示目标语音能量在混合的语音和噪声的比重,M(t,f)为CNN的训练目标。
  此系统利用浮值掩蔽得到训练目标,以及特征提取,然后通过CNN网络进行集成。网络采用有监督的方式进行学习。网络会对每个带噪语音信号估计出一个浮值掩模,将估计出来的掩模和带噪语音信号的幅度谱相乘得到增强语音的幅度谱,将增强语音的幅度谱和带噪语音的相位谱相乘作为增强语音的频谱。最后将增强语音的频谱做逆短时傅里叶变换得到增强语音的时域信号。该系统首先从训练集中提取特征值,然后计算IRM值,把此值输入到网络中进行训练。而对于测试阶段,从测试集中提取特征值,输入到网络中,得到增强的语音,然后再进行语音信号重建得到最终的输出信号。
  3 实验与结果分析
  在实验中,训练集和测试集来自TMIT语料库。对于训练集,随机选择1000个话语,对于测试集,我们随机选择了另500个话语。为了使实验条件更加真实,训练和测试集的噪声类型和SNR水平都不匹配。我们采用噪声为:高斯白噪声(WGN),发动机噪音和婴儿啼声,使用五种SNR等级(-12 dB,-6 dB,0 dB,6 dB和12 dB)。在实验中,从波形中提取512个采样点以形成512个采样点,在该研究中,从波形中提取512個采样点以形成用于所提出的SE模型的帧。此外,还从基线系统的帧中获得257维LPS矢量。该实验中的CNN具有四个带有填充的积层(每个都有该层由15个滤波器组成,每个滤波器的滤波器大小为11)和两个完全连接的层(每个都有1024个节点)。FCN具有与CNN相同的结构,除了完全连接的层各自用另一个卷积层替换。DNN只有四个隐藏层(每层由1024个节点组成)。
  对于特征变换,音频信号被下采样到8kHz的,并且静音帧从信号中移除。使用512点短时傅里叶变换(为32ms海明窗)计算光谱矢量,窗口移位为64点(8毫秒)通过去除对称的一半,512点STFT幅度矢量减少到257点.此257点用于输入特征,并且被标准化为具有零均值和单位方差。
  PESQ、STOI分别是用来评价语音质量和语音清晰度的客观指标。PESQ的取值范围是-0.5至4.5,STOI的取值范围是0值1。测试结果如表1 所示。对于CNN,相较于DNN,在SNR分别为12,6,0,-6,-12dB情况下,PESQ指标分别提升了5.42%,4.22%,2.79%,6.69%,4.75%。验证了CNN相较于DNN语音增强效果更好。但是我们注意到在STOI标准下,CNN相较于DNN,提升不明显。而对于FCN,在SNR分别为12,6,0,-6,-12dB情况下在PESQ标准下,分别提升了11.5%,12.5%,17.2%,11.8%,11.5%,在STOI情况下,也分别提升了10.27%,2.68%,5.03%,5.13%,6.93%,证明该系统是有效的。
  结束语
  本文基于在卷积神经网络的基础上,在卷积神经网络语音增强的基础上,提出了基于浮值掩蔽的完全卷积神经网络语音增强系统。该系统改进了卷积神经网络,使神经网络变得更小,适用于嵌入式设备。同时,该系统考虑到无声段理想浮值掩模不存在的问题,设计了合理损失函数。
  参考文献
  [1]周志华.机器学习[M].北京:清华大学出版社,2016.
  [2]赵晓群,黄小珊,宫云梅.基于无语音概率改进的对数谱幅度估计增强算法[J].信号处理,2008,24(06):912-916.
其他文献
摘 要:思想政治工作在企业管理过程中具有十分重要的地位与作用,做到思想政治工作人性化管理,充分体现出在企业管理中具有人性化的新时代管理理念。本文就企业思想政治工作采取人性化管理,提出了一些认识与建议。  关键词:企业管理;思想政治工作;人性化;策略探析  人性化管理是各行各业提出的管理新理念,这种管理具有文化精神为前提下的以人为本的管理模式,是未来社会发展变化的必然趋势。本人作为企业党的负责人,就
期刊
一、引言  离异家庭儿童是指父母婚姻关系破裂、家庭解体后出现的与生活在完整家庭儿童所不同的群体。随着社会的发展和人们思想观念的转变,离异家庭已经越来越多。根据国家统计局官网上可查阅到的全国粗离婚数据统计显示:1997年—2019年,中国的粗离婚率从0.97‰上升至3.2‰,整体呈持续增长趋势。中国不断攀升的离婚率引起了社会各界人士的高度重视,离异家庭儿童的成长问题也成为了社会上热点讨论的话题。在已
期刊
摘要:为保证化工企业工艺气机组调试过程顺利进行,为煤化工工艺气机组的联动试车做好准备工作。包括试车前的循环水系统、冷凝液系统、真空系统及油系统的投用工作,还包括油系统调试确认工作以及各项性能指标的测试工作。本文就化工企业工艺气机组调试过程中存在的问题进行探讨。  关键词:汽轮机;单体试车;指标控制  油系统所有设备、管道均已清洗合格,清洗时所加的临时盲板、滤网和短管已拆除,油洗时拆下的限流孔板、调
期刊
摘要:本文通过介绍美军数据链演进过程,从历史问题入手,解析出数据链发展的趋势,即数据链正在向着综合化、标准化、高速化、高抗化和智能化方向发展。  关键词:美军;数据链;趋势  0引言  现代网络中心战的战斗力来自于信息,其代表有美军的全球信息栅格[1]。如果把全球信息栅格比作“骨骼”,那么它的“神经中枢”就是数据链。数据鏈将美军分布于全球各地的武器平台连为一个整体,实现了它们之间的高效协同和资源共
期刊
摘要:下文主要讲述的是新品种草莓白雪公主的高产栽培技术研究背景的分析、栽培技术的主要内容以及白雪公主草莓高产技术实施办法。旨在通过高产栽培技术的研究进一步促进白雪公主草莓(水果皇后)的产量,在不使用农药的情况下,实现亩产量增加5%,经济效益增加每亩增加10%。  关键词:草莓;白雪公主;高产;栽培;技术  白雪公主草莓(水果皇后)作为草莓培育的新品种,自身的外形特点以及良好的口感被大众所喜爱,由于
期刊
摘要:运用文献资料、逻辑分析、实地考察等研究方法,以在基层档案管理工作开展情况为研究对象,通过对基层政府档案的管理现状进行研究,提出合理的实施路径进行选择。研究发现:在基层档案管理工作开展过程中,取得了较好的实效,但因基层工作“上面千条线,下面一根针”的工作特点,工作头绪多、任务重、压力大。基层档案工作开展存在不系统、不健全、不科学等问题。路径选择需要“对症下药”“因档施策”,摸清档案明细,进行细
期刊
摘要:施工项目的成本管理始终是贯穿项目全过程,它是企业全面成本管理的重要环节,须在组织和控制措施上给予高度重视,以期达到提高企业经济效益的目的。  关键词:成本管理;现状;成因;控制  一、施工项目成本管理的现状及成因  1.1市场竞争激烈  市场发展虽充满竞争,但总体而言,发展是健康的,竞争是有序的。激烈的市场竞争一方面促进了企业的繁荣,同时也推动市场向更规范、更公平的方向发展。由于市场主体资格
期刊
摘要:随着教育体制改革的深化推进,在新时期下,高职计算机基础教学也迎来了相应的教育改革。在高职教育中,计算机基础教学中一项十分基础的课程,对学生未来的发展和在社会上的立足都有着十分重要的影响作用。随着信息化的到来,计算机基础课程的教学内容和教育模式都逐渐和时代的进步相脱节,进一步的改革与创新是必然的,也是必须的。  关键词:高职教学;计算机基础;教育改革;教学创新  在新时期下,高职教育中的计算机
期刊
摘要:目的:优化卡痛试剂卡玻纤工艺。方法:以卡痛试剂卡阴性质控结果为指标,采用Plackett-Burman设计筛选卡痛试剂卡玻纤体系的主要影响因素;再以阴性质控结果为评价指标,采用Box-Behnken设计对影响卡痛试剂卡阴性质控结果的主要因素进一步优化,对实验数据进行多元线性回归、二项式拟合,分析预测最佳工艺。结果:卡痛试剂卡玻纤体系的最佳工艺条件为:Na2HPO4添加量为0.05M,Chem
期刊
摘要:网络游戏风靡于青少年中很重要的原因在于其激励机制,本文分析了高职教育特点与网游模式的激励机制,并提出了高职教育网游模式的构建创想,对提高高职课程教育效果有一定的借鉴意义。  关键词:网游模式;激励机制;高职教育  高职院校是以学生为中心、以岗位能力培养为课程核心,需要通过各种教学方法手段,使学生能够更快地掌握各种知识和技能。现阶段教师在课堂上普遍采用多媒体等教学手段优化教学环节,但在实际的教
期刊