基于深度学习的语音增强算法研究

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:skyaixiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实生活,语音信号往往会被周围环境中存在的各种各样的噪声所污染,严重影响语音处理系统的性能。在这种情况下,我们需要采用语音增强技术对被噪声污染的语音信号进行降噪处理,抑制背景噪声,提高语音质量。传统的语音增强算法对平稳噪声的抑制效果比较明显,但在非平稳噪声的情况下往往不能得到令人满意的效果。除此之外,传统的语音增强算法一般只在某一种噪声环境下降噪效果不错,很难应用于复杂多变的噪声环境中。针对传统的语音增强算法的局限性,本文利用深度学习的优势提出了一套完整的语音增强算法。本文的研究工作主要分为以下几个方面:(1)基于现有的语音特征参数,提出了一个改进的语音特征参数-多分辨率听觉倒谱系数(Multi-Resolution Auditory Cepstral Coefficient,MRACC)。该特征参数是在多分辨率耳蜗图(Multi-Resolution Cochleagram,MRCG)的基础上进行改进的。MRCG多分辨率的特性不仅可以关注语音高分辨率的特征,又可以把握低分辨率的特征。但它采用对数曲线压缩语音能量来模拟人耳对音强感知的非线性特性不是特别合适,本文改为幂函数映射进行压缩。除此之外,MRCG特征维数较大,计算复杂度高。本文采用离散余弦变换(Discrete Cosine Transform,DCT)对特征进行降维来降低计算复杂度。实验结果表明,本文所提出的改进的语音特征参数-多分辨率听觉倒谱系数在低信噪比复杂环境下,具有更好的鲁棒性和适应性。(2)本文利用深度学习中的深度神经网络(DNN)有强大的非线性映射能力,构建了一个基于DNN的语音增强模型。其结构由1个输入层,4个隐含层和1个输出层构成。输入层用来输入含噪语音的特征参数,隐含层由多层堆叠而成,输出层用来输出估计的目标。当隐含层数目太少时,不能很好地学习输入和输出之间的映射关系,但随着隐层数目的增多,网络结构变得复杂,它的映射能力下降。实验中发现隐含层数目为4时,语音增强性能最好。各层的节点数依次为432-1024-1024-1024-1024-64。其中输入层各节点代表MRACC特征,输出层的各节点代表一帧的Gammatone滤波器组64个频率通道的掩蔽值。(3)基于现有的时频掩蔽的目标,本文提出了一个自适应掩蔽阈值。由于理想二值掩蔽(Ideal Binary Mask,IBM)是计算听觉场景分析的主要计算目标,已经被证明不仅去除噪声比较干净,而且能够极大地提高语音的可懂度,但是对语音质量损害较为严重。而理想比值掩蔽(Ideal Ratio Mask,IRM)可以同时进一步提高语音的可懂度和语音质量,但是残留的噪声比IBM多。因此可以将二者结合起来通过跟踪噪声变化自适应的估计出IBM和IRM前面的系数,进而计算出一个自适应掩蔽阈值。实验结果表明,和IBM相比,自适应掩蔽阈值同时提高语音的质量和可懂度。和IRM相比,在可懂度相当的同时,不仅消除了更多的噪声,还提高了语音的舒适度。(4)基于上面的技术构建了一套基于深度学习的语音增强算法。与对比算法相比,该算法不仅对噪声具有更强的鲁棒性,抑制了更多的背景噪声,而且进一步提高了增强语音的质量和可懂度。
其他文献
本文借鉴语义功能语法的核心——语义语法范畴理论,根据“这、那”以及一些与数量有关的、决定搭配关系的范畴义素来分析旁指代词成员之间不同的语法差异,得到了一个旁指代词
自然生态环境的严重失调,环境污染日益加剧,“生态危机”逐渐引起人们的普遍关注。而所谓生态危机,在哲学视角中实质是人与自然关系的危机,即人与自然关系的异化。人与自然的
毛泽东与中国传统人生哲学具有千丝万缕的联系。儒家成圣成贤的人生理想、傲然独立的人格气节、自强不息的人生精神;道家洒脱机趣的生活方式、不为物役和对精神自由的追求、具
今年3月的全国两会上,习近平总书记谈到乡村振兴战略时,指出要推动乡村人才振兴。“人才不振,无以成天下之务。”实施乡村振兴战略,必须牵住人才振兴这个“牛鼻子”,用战略眼
报纸
本文从"表现理想"、"抒发激情"、"想像丰富"、"神话传说"等四个方面,论述了《诗经》的浪漫主义色彩。《诗经》中的浪漫主义色彩是很丰富的,对后世的诗歌创作,具有深远影响。
民族文化是维系一个民族生存、延续的灵魂,是民族发展繁荣的源泉。在全球化和现代化的潮流中,越来越多的少数民族传统文化面临着危机。如何保护与发展少数民族传统文化,特别
中国石油产业经过 2 0多年市场化取向的改革实践和探索 ,市场结构的基本框架已初步形成。但面对经济市场化程度不断深化的要求和加入WTO的严峻挑战 ,目前我国的石油产业仍缺
土地证券化是农村融资的重要途径,也是农村土地流动的最高级形式。我国也可以利用资本市场,将土地承包权构造和转变成为可销售和可流通的金融产品,即通过证券化的方式为农业
考察几种提取方法对山楂果肉中总黄酮提取效率的影响。采用不同的提取方法获得山楂浸膏,经大孔吸附树脂分离提取有效成分。以蒸馏水为溶剂,用水煎煮法提取经大孔吸附树脂分离
<正>长期以来,很多小学生在数学学习中,尤其是计算方面,存在很大的困难。教师和家长往往都将学生看错题目、写错数字、计算结果不正确等问题简单地归因为审题不认真、粗心、