基于深度神经网络的语音增强算法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:yujiesky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,智能设备给日常的工作和生活带来了巨大改变,语音发布命令指挥机器成为更快捷更方便的沟通方式。语音作为人与人之间,以及人与智能设备之间普遍使用的信息交流方式,是一种不可替代且极其方便的媒介。然而,在日常生活、语音识别、军事通信中,总是存在各种各样的背景噪声,严重干扰正常的生活以及通信,影响听众接收到的语音内容。语音增强的主要目的是减弱和抑制背景噪声对目标语音的干扰,使听众可以享受到高质量和高可懂度的目标语音。传统无监督语音增强算法经过几十年的发展,技术较为成熟,但是算法模型对语音和噪声之间相关性做了一些假设,导致无监督语音算法应用有局限性,对噪声信号随时间变化比较平缓的噪声处理效果较好,对变化比较快的噪声处理效果不佳。近几年,深度学习技术应用在各个领域中,其中,它在语音领域有突出成果,利用深度神经网络(Deep Neural Network,DNN)强大的数据分析能力对带噪语音进行处理成为热门的研究问题。研究发现,基于DNN的语音增强算法在去噪方面优于传统算法。本文利用DNN对语音进行处理,着重考虑低信噪比条件下带噪语音中噪声比重大,优化时频掩码函数使其更好地拟合语音结构,并同步估计纯净语音的相位,主要工作和贡献如下所示:(1)在基于DNN的语音增强算法基础上,考虑到短时傅里叶幅度谱(STFTAmplitude Spectra,SAS)特征和对数功率谱(Log power Spectra,LPS)特征之间包含信息的互补性,在输入层将两个特征进行拼接,设计神经网络模型提取特征,使网络能够同时学习到更多的细节信息,对输出后的特征进行后融合处理,融合两个特征的网络表现出更好的去噪效果。(2)针对基于时频掩码的语音增强算法中,时频掩码函数与信噪比无关的问题,提出利用信噪比信息优化时频掩码函数,并通过两阶段网络来增强去噪性能。第一阶段中,利用神经网络对带噪语音做初步分离处理,估计先验信噪比,在第二阶段中,根据先验信噪比设置增益函数来优化时频掩码函数,同时在该函数中增加相位差系数,以提高估计的准确性,优化后函数在各种复杂的环境条件下都表现很好,更好地保留语音谐波结构,同时减少残留噪声。(3)基于DNN的语音增强算法,在训练阶段忽略了相位信息,在语音信号恢复阶段使用带噪语音信号的相位代替纯净语音信号的相位,相位中包含着更多细节信息,有利于恢复语音谐波结构。基于此,提出在DNN模型的基础上,引入一个多任务学习模型,通过深度神经网络,实现对语音幅度和相位的同步估计,并将估计的纯净语音相位用在波形恢复中,一方面降低了模型的复杂度,另一方面利用纯净语音相位重构语音,相比仅考虑幅度估计的方法,改善了各种嘈杂环境中的语音质量,提升了听觉体验。
其他文献
在医学临床诊断中,眼底视网膜存在着一定数量的毛细血管,其表征变化与许多疾病的并发症状有紧密联系,对这些血管的分布、形态的分析与研究是诊断部分眼部疾病和综合性疾病的重要依据之一。通过计算机对视网膜血管图像进行精准分割可以极大的减轻临床医生的工作量,提高分割任务效率、避免人为因素与主观因素影响,对医学辅助诊断具有深远意义。本文基于深度学习算法研究眼底视网膜血管的分割算法,设计了两种不同的网络模型,并在
伴随着科学技术的发展进步以及对交通运输需要的持续增加,大型桥梁在社会现代化中的作用也越来越突出。为了监测自然环境改变(如地震、地陷)或人为因素对桥梁各部分结构的影响,亟需提升桥梁健康监测及评估系统的实时性、整体性、准确性。因此对桥梁健康状态进行监测和评估具有重要意义。基于此,本文设计了一种多模式多节点桥梁健康监测及评估系统,并主要完成以下工作:(1)根据监测目标和内容,分析传感器的使用条件、安装方
在智慧矿山的建设进程中,对综采工作面进行监测有着至关重要的作用。综采工作面虚拟监测系统作为远程监测探索研究的一项重要内容,能够实现对综采工作面设备及环境的全局实时监测,但目前的研究更重视技术的突破和功能的叠加,而忽略对人机交互的探索,致使系统的识别效率低,易用性和易学性差,甚至存在功能残缺、容错性低的问题,从而导致系统用户体验不佳。本文通过交互设计的理论和方法对虚拟监测系统的交互逻辑和界面视觉进行
随着信息时代的到来,在人机交互中产生了大量的文本,音频,图像等非结构或半结构等形式存储的数据。其中文本数据居多,为了有效的提取文本中有价值的信息供人们使用,实体识别和关系抽取技术是自然语言处理领域的两项基本任务,旨在帮助人们挖掘出文本中具有实体意义的名称及其之间存在的关系,这对构建领域知识图谱,智能问答系统等具有重要的意义及价值。传统的关系抽取任务将实体识别和关系抽取分成两个独立的子任务,没有考虑
随着智能机器人技术的蓬勃发展,复杂场景下的定位与建图对传感器的要求也越来越高。根据不同传感器的特性,在应对不同场景时可以选择相应的传感器:单纯采用视觉传感器对场景的纹理特征以及运动速度有一定的限制,但是视觉传感器可以提供丰富的场景信息。双目立体相机既可以解决单目相机没有尺度的问题,又可以避免RGBD相机在室外被光照干扰的问题。GPS(Global Position System)可以实时获取自身的
物联网(Internet of Things,Io T)作为推动信息技术发展,加快产业更新的关键性技术,它通过无处不在的传感器节点,将人与物,物与物有机的关联起来,物品之间通过射频识别(Radio Frequency Identification,RFID)技术的桥梁实现自动识别。随着共享经济和物流快递行业的迅猛发展,碎片化的海量订单推动着仓储管理行业向自动化,智慧化发展。大型智慧仓储不仅要录入商
在女性患癌人群当中,乳腺癌是最常见的癌症,是威胁女性生命健康的重要因素之一。有研究表明,乳腺癌的早期发现可以有效提高患者的治愈率,并且患者的五年生存率也会大大提高。因此乳腺癌的早期筛查对于患者后续的治疗有着重要的意义。医学影像是乳腺癌早期筛查的重要手段,其中乳腺钼靶图像具有成像清晰、成本低以及灵敏度高的优点,是最常用的筛查手段。医生通常需要依靠大量的临床经验来做出诊断,但对于钙化病灶而言,由于其较
随着深度学习技术在计算机视觉方面的发展,常见的视觉识别任务,例如图像分类,目标检测和语义分割等迅速达到成熟。实例分割作为一种重要的图像理解方法,旨在找到图像中所有实例并且对实例进行像素级分类,兼具目标检测和语义分割的功能。尽管如此,实例分割仍然不足以对复杂的周围环境进行全面理解,例如当物体之间存在相互遮挡关系时,实例分割技术仅仅能够识别和分割可见像素部分,对于物体被遮挡部分无法做出预测。然而,人类
随着周围神经组织工程学的发展,可生物降解材料的研究具有广阔的应用前景。壳聚糖(Cs)由于其与糖胺聚糖相似的化学结构而成为神经组织工程的候选者,但由于缺乏弹性和柔韧性,经常需要与其他材料组合使用。许多天然材料也可以用于构建神经支架,例如透明质酸(HA),明胶(Gel)和胶原蛋白(Col)。通常,这些材料不适用于单独制备神经支架,因为它们很难成型,并且它们的水溶性决定了它们长时间不能在组织环境中保持单
近年来,随着人工智能技术的发展,越来越多人开始关注智能阅卷方面的研究。现阶段的自动评分系统对于客观题如判断题、选择题以及填空题等固定答案的题型能够做出精准的评分,但对于主观题来说,目前主要是以人工评阅为主,并且在评阅主观题试卷时,可能会受到个人情绪、卷面排版以及身体劳累的影响评阅试卷的客观性和工作效率,因此主观题评分系统的研究对于智能化教育具有重要意义。本文提出基于中文分词和文本相似度的主观题评分