基于图像边缘保持滤波技术的语音增强算法研究

来源 :广州大学 | 被引量 : 1次 | 上传用户：asfdasdfasd

【摘要】

：

语音增强的目标是从带噪语音中去除噪声干扰,尽可能提取纯净语音。语音增强具有减小语音失真、提高语音质量和降低听觉疲劳度等作用。目前语音增强技术已普遍应用于移动通信

【作者】

：

颜霖煌

【出处】

：

广州大学

【发表日期】

：

2020年01期

【关键词】

：

语音增强双边语谱图滤波 OMLSA 听觉掩蔽效应引导语谱图滤波语谱图降噪卷积神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音增强的目标是从带噪语音中去除噪声干扰,尽可能提取纯净语音。语音增强具有减小语音失真、提高语音质量和降低听觉疲劳度等作用。目前语音增强技术已普遍应用于移动通信、计算机、智能穿戴设备、智能家居等产品和领域中。传统单通道语音增强算法可以较好地抑制平稳噪声,达到提高语音质量的目的,但对于听力正常人群处理后语音可懂度并没有显著提升。传统语音增强算法基本都需要进行噪声估计。噪声估计的准确度直接关系到算法的降噪性能和语音失真量。通常谱减类、维纳滤波、子空间类等单通道语音增强算法对平稳噪声的估计和更新可以取得令人满意的效果,可是在更多的现实场景中,如餐厅、车站候车厅等,噪声谱特性随时间不断变化,这些算法的噪声估计效果变得不尽理想,降噪性能大幅下降,因此这些算法的应用环境和场景也变得有限。针对当前单通道语音增强存在的局限性,本论文研究基于图像边缘保持滤波技术的语音增强算法,首先利用图像处理中的双边滤波和引导滤波算法,通过理论建模研究时频单元和图像像素点的异同,利用保边去噪的优势处理语谱图的时频单元,在平滑背景噪声的时候保持语谱图语音特性的边缘信息。此外针对当前有监督算法的研究现状和问题,本论文利用基于语谱图降噪卷积神经网络的方法进行语音增强。本文的研究旨在一方面在无噪声估计环节下提升语音质量,另一方面改善当前已有算法抑制非平稳噪声不理想的现状。本文的具体工作和创新点体现在以下三个方面:(1)提出基于双边语谱图滤波改进OMLSA(Optimally Modified Log-spectral Amplitude)算法进行语音增强。运用双边滤波技术处理语音信号的语谱图来实现语音去噪,把纯净语音的语谱图当成一幅纯净图像,每一个时频单元代表一个像素点,而把带噪语音归一化后的语谱图当成是一幅干净图像受到噪声干扰或雾化的结果,利用增强的语谱信息估计OMLSA算法的后验信噪比,对噪声信号的噪点和模糊区域进行有效抑制,最终获得较纯净的语谱图,并重构出时域的语音信号。(2)提出一种基于听觉掩蔽效应的引导语谱图滤波语音增强算法。通过分析引导滤波算法在图像中的运算和应用,受益于引导滤波算法结构本身的局部线性模型,使得边缘保持效果和算法效率均优于双边滤波,且成功地克服了双边滤波等方法的梯度反转问题。作出引导语谱图滤波表达式的理论推导,提出基于听觉掩蔽效应的引导语谱图滤波语音增强算法,利用引导滤波抑制语谱图背景噪声,锐化语谱来提取纯净语音,并结合人耳的听觉掩蔽效应,对增强后的语谱根据听觉掩蔽阈值的大小自适应地调整和削减残余噪声。在不同的噪声环境下全面对比多种传统单通道语音增强算法的性能,重点研究引导语谱图滤波应对平稳和非平稳态噪声环境的性能兼具的效果,实现语音质量、语音可懂度和自然度的提升。(3)研究基于语谱图降噪卷积神经网络的方法进行语音增强,通过引入监督学习解决双边滤波和引导滤波算法出现的中低频残留噪声问题。将语音信号按照图像的特征提取方式,用语谱图当做训练集,应用性能突出的降噪卷积神经网络进行语谱图降噪处理,避开传统语音特征常用的循环神经网络的开发深度有限、复杂度过大的问题,依靠语谱图裁剪策略更容易获得大量训练数据,空间存储成本小很多。采用较深层的网络,致力于提高容量和灵活性来利用语谱图特征,也能捕捉到足够多的空间信息使降噪性能更好。研究的模型在卷积神经网络训练中应用残差学习策略,并引入批规范化,对模型的性能有较大的提升。不管是已见噪声情况还是未见噪声的情况,所提出的语谱图降噪模型都表现出比较好的学习能力和降噪性能,表明了本文的语音增强系统较好的鲁棒性。

其他文献

动态样品及活细胞的数字全息成像分辨率特性优化研究

数字全息作为一种新型的成像手段,具有实时,非接触,无损伤定量相衬成像等优点,在全息干涉计量、无损检测、表面微位移测量、物体形变分析等各个领域中有着广泛应用。无论在高精度无损测量方面,还是与微流控芯片技术相结合获取芯片内样品信息等应用方面,数字全息重建成像的分辨率和成像质量是主要关注的性能指标。不断提高数字全息成像分辨率和成像质量,才有可能进一步扩展数字全息的应用范围。本论文针对动态样品和活细胞,研

学位

数字全息成像亚像素微位移时空扫描数字全息成像分辨率四步相移法

我国人力资本所有者参与上市公司治理法律路径研究

知识经济时代下,知识积累成为经济增长的内生的独立因素,特殊的、专业化的、表现为劳动者技能的人力资本者是经济增长的真正源泉。这在微观层面的公司活动中表现为人力资本对

学位

上市公司人力资本所有者公司治理参与治理法律路径

联合体承接EPC工程总承包项目中的设计作用解析

随着我国改革开放的深入发展,建筑业迎来了前所未有的机遇。在国家相关政策的扶持和推动下,采用EPC建设工程总承包模式对建设项目进行招标形成了快速普及的态势。近年来,以联

会议

招标投标EPC建设工程总承包设计与施工联合体合理化建议设计作用专业覆盖协调与同步

基于区域方向性离差和的360度视频帧内快速算法研究

虚拟现实技术目前广受欢迎,其中最典型的应用是虚拟现实360度视频。虚拟现实360度视频具有超高的分辨率(通常为4K至8K),这导致它比传统视频需要更多的编码时间,现有算法缺乏

学位

虚拟现实360度视频区域方向性离差和CU划分模式选择

公共治理视角下B区对服刑人员的社区矫正研究

社区矫正工作最初是为缓解监狱罪犯过多而产生的压力,积极利用各种社会资源、整合社会各方面力量,对罪行较轻、主观恶性较小、社会危害性不大的罪犯或者经过监管改造、确有悔

学位

服刑人员社区矫正公共治理

基于确定学习的非线性传感器故障诊断方法

在自动控制领域中,传感器是获取系统输出的重要工具,随着自动化研究程度的不断加深,越来越多的大型自动化实际生产项目开始投入建设,那么用于获取系统输出的不同种类传感器也在工程项目中变得越来越重要。一旦传感器发生了故障,将导致传感器无法获取正确的系统输出。传感器是获取系统信息重要的“眼睛”,当传感器失效后,我们无法获得正确的系统输出,如果在系统发生故障后仍按正常模式进行工作很有可能酿成惨剧。因此对传感器

学位

故障诊断神经网络确定学习

弗吉尼亚大学内部治理的理念、实践及制度保障研究

当前我国高等教育内部治理还存在很多问题,最突出的问题是教师学术权力得不到有效发挥,高校的行政权力过于庞杂,学校缺乏学术自由和办学自主权等。为激发我国高校办学活力,培

学位

弗吉尼亚大学大学内部治理共同治理

论我国污染产品税目的归属与构建

面对长期以来世界经济体重速度、轻保护的发展模式,全球环境破坏和资源紧缺日趋恶化,人类的生存与经济发展之间存在巨大的矛盾和挑战。在与日俱增的资源紧缺和环境压力下,牺

学位

污染产品税目消费税环境税本土构建

放疗环境下基于视觉的吞咽检测方法研究

目前,在喉部肿瘤放疗的过程中可能存在患者因吞咽运动影响治疗效果的情况,检测患者在治疗期间的实际吞咽运动状况可为后续补充辐射剂量提供客观的依据,有利于实现更精准的放

学位

放射治疗吞咽运动实时跟踪视觉检测

EPC总承包项目设计管理经验浅析

近年,国家大力推动工程总承包模式,EPC模式愈来愈受到总承包单位青睐,总承包单位的设计管理能力提升是EPC项目成功的前提。本文从设计营销、设计风险控制、设计管理重点、设

会议

EPC总承包设计管理风险控制限额设计

基于图像边缘保持滤波技术的语音增强算法研究

与本文相关的学术论文