基于深度学习的语音增强技术研究

来源 :解放军信息工程大学 | 被引量 : 5次 | 上传用户:pingwuse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强已运用于诸多领域,比如免手持的车辆装备,移动通信,电话会议和助听器,旨在从含噪语料中增强干净语音。作为自动语音识别的前端,它在改善设备在噪声环境中的性能和克服训练集和测试集之间的匹配失衡上发挥至关重要的作用,为降低词错率做出重要贡献。在目前的研究中,深度学习(Deep Learning)技术因其建模能力强,能充分挖掘语音信号的时空结构和时序相关性信息,而逐渐代替传统技术,成为主流的语音增强算法。基于目前的研究成果,如何提高低信噪比和非平稳噪声环境中的语音增强效果,仍是该领域的核心挑战。针对以上问题,本文在语音增强的特征选择和设计,模型建立与优化方面做了如下工作:1.针对现有特征种类多但在非平稳噪声和低信噪比环境中鲁棒性不强的问题,本文做了两方面的工作:首先,针对当前性能最优的多分辨率耳蜗谱图(Multi-Resolution Cochleagram Feature,MRCG)特征中,采用均值滤波器对高分辨率耳蜗谱图进行平滑而导致的降噪效果不理想问题,本文挑选降噪性能更优的中值滤波、自适应中值滤波和Alpha均值滤波替换原始的均值滤波器以计算MRCG特征中的低分辨率耳蜗谱图,提升特征的鲁棒性,并通过实验确定了滤波器最佳窗长设置;其次,本文运用Group Lasso算法对特征之间互补性进行量化,在8种主流特征中挑选出两种最具互补性的特征,并将这些特征拼接起来,作为深度神经网络(Deep Neural Network,DNN)的输入进行建模。实验证明,基于Alpha均值滤波算法的MRCG特征性能最佳;运用Group Lasso挑选出的互补特征(complementary feature)在分段信噪比、语音质量和可懂度方面都为语音增强系统的性能带来了可观改善。2.针对DNN模型优化训练,本文引入了两种优化措施:一是基于受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)的预训练机制;二是引入丢弃算法(dropout),并用整流线性单元(Rectified Linear Units,ReLU)激活函数代替sigmoid激活函数。RBM预训练可以有效学习训练数据的统计分布特性,特别是在训练数据较少的情况下,可以有效改善系统总体性能;dropout可以有效避免系统过拟合,Re LU激活函数可以最大化dropout训练效果,缩短DNN训练时间。实验证明,利用RBM进行预训练的DNN在语音增强各项指标上都有提升,尤其是针对小训练集和低信噪比的情况;引入dropout和ReLU激活函数之后,目标语音中的残留噪声明显减少。3.针对在低信噪比和非平稳噪声中准确估计训练目标较为困难的问题,本文提出一种新颖的联合DNN和卷积神经网络(Convolutional Neural Network,CNN)对训练目标进行估计的系统架构。首先,充分利用DNN自主学习能力强,善于深度挖掘语音信号频带之间相关性和时空结构的优势,进行掩蔽值矩阵估计;然后,将估计出的掩蔽值矩阵转化为灰度图,并利用CNN对转化成的灰度图进行二次识别,以降低语音频移、噪声污染对掩蔽值估计的干扰。实验证明,CNN的引入,大大提高了最终训练目标估计的准确性,使整体系统性能无论在平稳噪声还是非平稳噪声中均取得了提升;尤其是在非平稳的工厂噪声中,性能提升更为明显。
其他文献
根据某煤矿运煤皮带控制要求,引入PLC控制系统,并通过PLC控制系统硬件和软件部分的设计,构建皮带运输的PLC集中控制系统,最后给出PLC控制系统抗干扰措施。通过PLC控制系统的
公路事业在社会经济发展的推动下,公路路面工程采用的预防性养护措施,为公路事业的健康稳定发展奠定了良好的基础,就公路路面工程中的预防性养护技术的应用进行了分析与探讨
沧县隆起雾迷山组分为I,Ⅱ,Ⅲ3个岩性段,各段厚度相差较大。各段地层均由白云岩和硅质白云岩组成,叠层石发育,类型繁多,指相意义大。根据岩石类型、沉积构造、叠层石形态以及电性特征
<正>一、海外并购的特点(一)海外并购布局广我国企业转变对外贸易模式,积极实施"走出去战略",企业的海外并购已遍布全球五大洲。2013年度,我国企业以200起的并购数量,515亿美
从国际形势看,企业的公共或社会责任已排到了管理机构、非盈利性组织和各公司的日程上。由于企业承担社会责任有收盗也有支出,因此对于是否应该承担该责任存在很多分歧。
目的:探讨综合护理干预对2型糖尿病(T2DM)患者治疗依从性的影响。方法:收治T2DM患者180例,随机分两组,各90例。对照组给予常规护理干预,干预组在对照组基础上实施综合护理干
<正>日本太阳公司为提高开会效率,实行开会分析成本制度。每次开会时,总是把一个醒目的会议成本分配表贴在黑板上。
癫痫是由大脑神经元异常性发电导致的阵发性大脑功能障碍的慢性神经系统疾病。兴奋性和抑制性神经递质的失衡可能是癫痫发病的主要机制之一。神经肽Y(NPY)作为一种内源性抑制
哈萨克斯坦作为一个多民族、多元文化的国家。建国以来一直将民族稳定、处理好、各民族间利益关系放在首位。对于民族政策的制定,哈萨克斯坦经历了从"主体民族化"向"哈萨克斯
人们对中非关系普遍有种刻板印象,即中国是一条"饥饿的龙",而非洲则相对无能和脆弱,有关"中国在安哥拉长驱直入占领市场"的说法多年来也成为老生常谈,加深了这一刻板印象。本