基于分形维数和噪声分类的语音增强研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:w7622420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实环境中,目标语音往往会被噪声所污染,导致接收端接收的语音质量和可懂度降低,影响通信质量。因此,将纯净的目标语音从嘈杂的背景噪声中分离出来是极为重要的,而实现这一目的的手段称为语音增强。然而,现实生活中噪声种类繁杂,若能针对不同噪声采取不同的语音增强策略,则理论上势必会提高语音增强系统的性能和鲁棒性。此外,语音信号特征可以用分形维数表示。因此,若能将分形维数引入到语音增强系统中,一定程度上也会增强系统的性能。针对以上两种问题,本文分别提出了两种语音增强方法。(1)对于语音的非线性特性问题,本文首先提出一种语音信号特征——基于Katz方法的频域分形维数(Katz-based Spectral Fractal Dimension,KSFD),并将其与模糊控制滤波结合,利用KSFD对模糊控制滤波中的模糊控制参数进行动态调节,然后通过模糊控制滤波对输入信号进行滤波,以达到语音增强的目的。(2)对于面对不匹配噪声时语音增强系统性能下降的问题,本文首先对噪声进行分类,然后根据识别的噪声类型,采取不同的调节参数,最终实现了语音增强性能的提升。具体来说,首先,提取输入信号的KSFD值,基于KSFD执行语音活动检测;其次,对识别的噪声帧,利用卷积神经网络,对其类型进行识别;再次,根据识别的类型选取参数,利用IMCRA算法对噪声的功率谱进行估计;最后,增强语音的获得是由OM-LSA(Optimally Modified Log-Spectral Amplitude)方法完成的。本文实验基于TIMIT语音数据库和NOISEX-92噪声数据库展开,对所提两种语音增强方法性能进行仿真验证。算法性能评估选择分段信噪比、短时语音可懂度和语音质量感知评估三个指标。基于KSFD的信号模糊控制滤波方法相对于未处理信号在三种指标分别提升了17.8%、2.1%以及0.9%。结合了噪声分类想法的IMCRA(记为NC-IMCRA),相比于固定参数的IMCRA,在三种指标处分别提升了6%、3.4%和25%。
其他文献
随着三维数据采集、可视化、硬件设备的技术升级以及互联网行业的快速发展,三维模型已经成为一种主流的多媒体方式。如何在大量数据中检索到相似的三维模型已成为一个至关重要的研究课题。通常解决方法分为两类,分别为基于模型的检索算法与基于视图的检索算法。早期的方法主要是基于模型的算法,需要直接从明确的三维模型中学习拓扑结构、骨架信息等。基于视图的算法以不同的视图表示三维模型,并经过若干卷积层、池化层、全连接层
学位
阿尔茨海默症(Alzheimer’s Disease,AD)是一种不可逆的神经退行性疾病。当AD患者在临床上出现症状时,病情通常已经发展到了晚期,医疗干预无法再对患者产生积极作用。因此利用神经影像技术在病变之前发现患者脑内异常的变化并进行早期干预,对AD的早期防治具有非凡的意义。然而如何有效地利用神经影像技术提高AD诊断的准确率仍然存在较大的问题,为此本文从单模态和多模态两个方面来探讨AD分类中的
学位
<正>2022年,广西壮族自治区防城港市城市管理监督局(以下简称“防城港市城管局”)不断推进城市管理综合执法改革,加大对市容环境卫生、建筑垃圾等领域的监管处罚力度,法治建设工作成效明显。建立健全法治工作推进机制2022年初,防城港市城管局主要负责人在党组会议、党组理论学习中心组组织学习中央全面依法治国工作会议、中央依法治国委员会会议精神和习近平总书记重要讲话、重要指示批示精神,
期刊
目标检测一直是计算机视觉领域最热门的研究课题之一。传统的目标检测方法大多基于手动设计的特征提取策略和滑动窗口的区域选择策略,鲁棒性较差、时间复杂度较高。近年来,随着具有强大特征提取能力和局部感知能力的卷积神经网络(Convolutional Neural Network,CNN)广泛应用于计算机视觉领域,目标检测算法的精确度和速度都得到了大幅提升。其相关技术已广泛应用于智能交通、工业制造、军事国防
学位
人的微表情变化通常发生在一个人试图隐藏真实感受的情况下,与常规面部表情相比,它具有持续时间短、动作强度低的特性,能够揭示出与人们内心真实活动有关的信息。近年来,微表情识别因其在犯罪检测、商业谈判、刑事审讯等领域有重要的应用价值而逐渐引起了研究者的关注。根据所使用的数据源种类,微表情识别可以在单一数据域和交叉数据域上进行研究。然而目前微表情识别研究仍处于初始阶段,主要存在以下问题:一是微表情数据库不
学位
右玉精神融入大学生思想政治教育有利于学生生动理解马克思主义的精神特质,有利于坚定大学生的崇高理想和远大追求,有利于精准助力高等院校的人才培养。高校应在教师队伍、实践研学、网络育人、校园宣传等四个方面齐抓共管,进行有益的实践尝试。
期刊
近年来,计算机视觉领域获得了飞速发展,基于深度学习的目标检测作为该领域的重点研究方向,也取得了一定的研究成果。但其依旧存在对中小物体识别精度差、检测速度迟缓等问题,且对一些特定场景如教室的学生行为检测等缺乏应用研究。将目标检测算法运用到教育教学场景,可以有效反馈老师课程质量和学生听课状态,为学校改良教学方式提供重要参考,具有很大应用前景和价值。因此本文重点研究了在教室场景下对学生写字、举手、听讲、
学位
石膏质岩具有溶蚀性,在勘察设计阶段应用标准规范对石膏质岩进行围岩分级往往不能满足施工需求.为定量化分析溶蚀对石膏质围岩分级的影响,开展不同循环次数(1、 3、 6、 10次)和不同流速(0、 10、 20 L·h-1)的干湿循环实验;通过单轴压缩实验,探究石膏质岩在不同流速和干湿循环次数下的力学参数劣化规律.选取BQ值作为围岩分级修正的基础,将单轴抗压强度作为修正指标;建立流速和干湿循环耦合作用下
期刊
随着立体成像技术和多媒体应用的飞速发展,越来越多的立体内容出现在日常生活中,为人们提供了身临其境般的视觉体验。立体图像在采集、存储、传输和显示等过程中会引入多种失真,导致图像质量下降,影响观看者的主观体验。因此,对立体图像进行质量评估具有重要意义。受人类视觉皮层分层结构和交互机制的启发,本文提出一个基于立体融像的无参考立体图像质量评价网络。该网络由立体融像初级子网络和特征提取高级子网络两部分组成。
学位
现代医学影像技术已成为临床医学领域不可或缺的工具,高质量、高分辨率的医学图像能够帮助医生进行更准确的诊断,但医学图像的分辨率受到多种物理、技术和经济因素的限制。超分辨率重建技术可以提供一个成本较低的解决方案。超分辨率重建是一个典型的病态问题,主要目的是将低分辨率图像映射为高分辨率图像。图像超分辨率重建技术主要包括基于插值、基于重建和基于学习三类。目前,比较主流的图像超分辨率重建方法是基于深度学习的
学位