基于噪声分类的语音增强算法研究与实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:like_scdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语音信号处理系统中,噪声信号会对系统性能造成极大损害。因此,通常采用语音增强技术滤除语音信号中的噪声污染,以提升该段语音的质量。在实际应用场景中,噪声种类的丰富性和噪声特征的多样性大大限制了语音增强算法的性能,降低了增强后语音信号的质量,特别是信号的可懂度。因此本文提出了一种基于噪声分类的语音增强系统,主要包括以下三个部分:语音端点检测、噪声分类和噪声功率谱估计。
  首先,使用语音端点检测算法区分噪声帧和语音帧。本文提出一种基于长时信号功率谱变化的语音端点检测算法。该算法将信号在长时段下功率谱的变化量作为区分噪声帧和语音帧的特征。在不同噪声环境及信噪比下,该算法均具有更高的检测准确率,尤其在非平稳噪声条件下的检测效果提升明显。
  然后,使用噪声分类算法识别噪声类型。本文提出了一种基于卷积神经网络的噪声分类模型,该模型将多帧噪声信号的梅尔倒谱系数作为区分噪声类型的特征。在无干扰的环境下,该模型的平均分类准确率达到了98%;在有干扰的环境下,该模型的平均分类准确率为85%。
  最终,根据噪声分类的结果,选择最优的参数组合使用改进的最小控制递归平均算法((Improved Minima Controlled Recursive Average,IMCRA)算法估计噪声功率谱,并使用OM-LSA进行语音估计。与传统的基于IMCRA的语音增强算法,本文提出的算法能够更好的提高带噪语音信号的质量,特别是带噪语音信号的可懂度。
  本文在TIMIT标准语音库和Noisex-92标准噪声库上对所提出的算法进行性能测试。通过语谱图,可以直观看出增强后的语音信号在降噪的同时能够更好的保留语音信号的细节特征;并使用分段信噪比(Segmental Signal-Noise Ratio, Seg-SNR)、短时目标可懂度(Short-Time Objective Intelligibility, STOI)以及语音质量感知评估(Perceptual Evaluation of Speech Quality, PESQ)这三种客观评价指标衡量语音增强算法的性能,相比传统的IMCRA算法,使用本文算法增强后的语音信号的客观评价指标明显提高。
其他文献
物体检测是计算机视觉领域的基础问题之一,在自动驾驶、安全监控等领域有着广泛的应用。当前物体检测主要有两个发展方向,一是通过部署深度网络来实现检测精度的提升,不能保证实时的检测速度;二是通过设计轻量级网络提升检测速度,但检测精度相对较低。目前来看,单阶段物体检测器的检测速度尚可满足实时性的需求,但检测精度低是其相比于双阶段物体检测器的一个缺陷。与此同时,对于自动驾驶、安全监控等领域来说,视觉感知系统
数字多媒体时代的今天,各种立体图像或视频产品丰富着我们的生活,给我们带来身临其境的立体感。然而在立体图像处理过程中,创建、压缩、传输、重建、渲染和显示这些步骤都难免在原始图像上引入各种失真,导致立体图像或视频质量的下降。质量评价算法能够对立体图像或视频产品的质量进行评估。因此,建立一个准确有效的立体图像质量评价模型在数字多媒体时代显得至关重要。  本文首先提出了一种基于立体显著性的无参考立体图像质
空间谱估计作为阵列信号处理的一个重要分支,其目的是确定空间中入射源信号的来向。经典的DOA估计算法大都基于精准阵列流型,而没有考虑实际应用中不可忽略的互耦效应等因素,导致其实测性能大幅降低。因此,研究互耦情况下的测向算法具有重要的实用价值。此外,由入射源信号的统计特性,可将其分为圆信号和非圆信号。目前大多数算法默认入射源信号是圆信号,只利用其协方差非零的特点完成测向操作,导致可探测最大入射源数目少
随着5G新无线电接入技术(New Radio Access, NR)的不断发展,人们对大容量、低延时、高可靠、高速度、低功耗通信的需求更加迫切。在数字通信系统中,信道编码是5GNR的关键技术之一,而海量的信息数据传输对5G信道编码提出了更高的要求。低密度奇偶校验(Low Density Parity Check, LDPC)码作为5GNR的信道编码中数据信道的长短编码方案,将继续发挥不可或缺的作用
火灾早期,通常先有烟雾产生,随后才是火焰,因此烟雾检测能够提供比火焰更为及时的报警线索,对于确保人民群众的生命以及财产安全、推进火灾预防领域的发展意义重大。传统的烟雾检测方法通过监测空气中烟雾颗粒产生的物理变化来进行烟雾报警,比如温度、浓度等。但此类方法在时间和空间上均受到限制,从时间来说,烟雾浓度需达到一定范围才可以被传感器感知,这很可能导致最佳救援时机的错失;从空间上来说,一些开阔的室外环境也
学位
随着互联网技术的发展,海量图像数据不断涌入,人们对从海量数据中检索有效信息的需求不断增长。同时,近年来随着手机、平板等触摸屏技术的发展,基于草图的图像检索(Sketch-based Image Retrieval, SBIR)成为一种较为直观和有效的图像检索方式。相比于其他基于内容的图像检索方式,草图作为查询输入可以更好地描述关键信息,且更为直观和简洁。因此,基于草图的图像检索引起了研究人员的广泛
目标检测是计算机视觉中的一个主要研究方向,并且有很多实际的应用,比如无人驾驶、智能医疗等。传统的目标检测算法主要基于手工提取的特征以及可训练的浅层结构。近些年来,随着深度学习技术的快速发展,越来越多的研究人员趋向于用深度学习的方法解决计算机视觉任务。由于深度学习能够提取出更深层次、更高语义级别、更加鲁棒的特征,基于深度学习的目标检测算法在该领域取得了突破性进展。但许多复杂的应用场景既对目标检测系统
学位
随着显示器硬件制造水平的提高以及人们对显示器视觉质量需求的提升,数字显示器已经逐渐可以显示具有高比特深度的高动态范围内容,以提供更多、更细致的颜色表示,提高图像显示的视觉质量。然而,受限于图像采集设备,大多数图像视频以低比特深度形式存储。当这些低比特深度图像经过简单处理后直接在高比特深度显示器上显示时,图像的颜色平滑渐变区域会有明显的伪轮廓,降低了视觉质量。因此,研究合适的图像比特深度增强算法具有
近年来,3D处理技术的发展推进了立体视频的商业化进程。然而,任何3D处理技术都会造成立体视频的质量下降、立体感缺失等问题,从而影响人类的观看体验。因此,如何根据立体视频的特点,构建更加符合人类视觉感知的立体视频质量评价模型,已成为计算机视觉研究领域的关键问题之一。目前,立体视频质量的评价方法主要包括基于特征提取的方法、基于稀疏表示的方法和基于深度学习的方法。卷积神经网络作为深度学习的重要技术理论,
学位
在恶劣天气下,图像采集设备受到大气悬浮粒子(例如:雾、霾和小液滴等)的影响,导致图像产生颜色失真、对比度降低以及细节丢失等问题,不仅影响图像视觉效果,还会影响计算机视觉系统的分析与处理。因此,如何设计高质量的图像去雾算法成为亟待解决的问题。  本文介绍了图像去雾算法的研究背景和现状,讨论了大气散射模型、深度学习和生成对抗网络相关理论,以生成对抗网络为基础提出了两种图像去雾算法。具体工作包括:  首
学位