基于深度神经网络的阶梯式语音增强方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:zt20032053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实生活中,交流过程不止有说话声,更是充斥着各种各样的噪声干扰着沟通质量。因此,如何更好地抑制噪声对沟通的影响性,是一个急需解决的问题。语音增强是为更好的解决噪声对交互影响而出现的技术,主要目标是增强混合语音中的目标语音,从而在一定程度上使得增强后语音更易于理解。传统的语音增强只能较好的应对平稳噪声,对于非平稳噪声效果往往不太理想,最近深度学习的崛起在很大程度上解决了对非平稳噪声的抑制。由于频域处理相较于时域信号更稳定,所以当前大多数基于深度学习的语音增强方法都仅处理幅度谱,忽略噪声相位信息对增强语音的影响,这极大地限制语音增强性能。为更好地解决相位信息对增强语音的影响,在一次增强后得到既适合机器感知又适合人耳感知的语音,则是更有意义的工作。基于此,论文提出了一种阶梯式语音增强方法。本文中将语音增强分为两步,第一步生成利于机器听感的增强语音,然后第一阶段的增强语音继续进行噪声抑制,将振幅谱映射成梅尔谱,最后结合声码器Wave RNN得到适合人耳听感的语音。这样的方式在第二阶段上完全消除噪声相位信息对最终增强语音的影响,与第一阶段合适机器听感的语音相比,在第二阶段生成的增强语音更有利于人耳听觉感知。且为更好地得到增强语音,本文在输入之前对变换后的频域能量信息利用高斯滤波做了相关修正,增加了帧与帧之间的相关性,使能量更加集中。同时本文对传统均方根损失做了方向一致性修正,将均方根误差和余弦相似性度量结合,较好的解决传统均方根误差中向量之间独立性问题,有利于最终噪声抑制性能表达。最终实验结果表明,本文提出的阶梯式语音增强模型,不仅在一阶模型上得到很好的机器感知结果,且在人的主观感知评判上二阶结果要好于一阶结果,验证了论文提出的方法在第二阶段较好弥补噪声相位信息引入的负面感知评判,证明了本文提出方法的有效性。
其他文献
DM发病机制复杂,涉及代谢紊乱、免疫失调等病理生理改变。迷走神经与DM发生发展密切相关,在调节机体代谢及内分泌激素、调节炎症及免疫通路中发挥重要作用。本文综述迷走神经与DM关系的研究进展。
期刊
Scratch是面向青少年儿童的图形编程工具,它的特点是简单易学,内容丰富有趣,符合学生以具象化思考为主的特征。Scratch软件与小学数学课堂的结合,可以启发和鼓励学生在快乐有趣的环境下进行学习与探究,利于学生的思维训练与能力提升。
期刊
黑色素瘤是一种高度恶性的肿瘤,是皮肤病中增长率、致死率和常见性最高的恶性肿瘤。黑色素瘤在早期阶段繁殖缓慢,如果在早期可以得到诊断并且及时治疗存活率会大大提高。传统的判断黑色素瘤的诊断方法主要是医生基于皮肤镜图像对皮肤病变区域进行判断,通常很耗时,并且诊断的准确性在很大程度上取决于医生的专业水平和诊断经验。计算机的自动识别是非主观的,可以辅助医生进行诊断。然而黑色素瘤在颜色、形状等方面有着极大的类间
学位
人体运动捕捉就是通过某些途径数字化地感知和记录人体在三维空间中的运动,进而通过人体数据来完成行为分析和动画驱动等任务。人体运动捕捉已经渗透到影视动画、游戏制作、体育、安防、VR/AR等领域,具有巨大的应用空间和商业价值,也是视觉多媒体领域的研究重点。近些年,人体运动捕捉技术取得了巨大的突破。然而现有的方法着重于解决单人或者非紧密交互的多人场景,对于一些生活中常见的紧密交互场景下的人体重建,却研究较
学位
咳嗽是儿科临床最常见的疾病之一,《素问·咳论篇》将咳嗽分为五脏咳和六腑咳。小儿具有"肝常有余,肺常不足"的生理特点,临床因肝累肺之肝咳并不少见。汪受传教授认为此类咳嗽证属肝火犯肺,病机为肝火炽盛,上逆犯肺,肺失清肃而致咳嗽,治宜以清肝泻肺为主法。在清肝的基础上联合清肺、泻肺、润肺、止咳、化痰等诸法,泻其肝火、肃降肺气。临证灵活加减,疗效显著。附验案2则,以资验证。
期刊
蛋白质是生命的物质基础,也是构成细胞的重要有机物,它与我们的各种生命活动息息相关,因此研究其功能对于推动生物学、医学等领域的发展十分重要。在本文中我们提出一种基于序列聚类的蛋白质功能预测方法,我们知道蛋白质的伪氨基酸组分不仅包括了蛋白质天然氨基酸的组分信息,还增加了氨基酸序列顺序效应的影响,因此本文通过调节不同的参数,提取了人类注释蛋白质伪氨基酸组分的特征向量,使用机器学习中无监督的谱聚类算法将各
学位
<正>余尚贞教授为国家卫生部临床重点专科、国家中医药管理局重点专科、广东省江门市五邑中医院脑病科学术带头人,广东省名中医。从医三十余年,师从国医大师梅国强教授,医德高尚,医术精湛,临床经验丰富,善于运用经典指导治疗内科杂病、疑难病。历来医家认为"脾为生痰之源,肺乃贮痰之器""其标在肺,其制在脾,其本在肾",多从肺脾肾论治咳嗽。余尚贞教授临证审证求因,治病求本,
期刊
恶意应用是移动终端用户面临的最严重威胁之一。由于恶意应用的恶意性、传播性和隐蔽性,恶意应用的检测往往落后于它的出现。虽然目前已从应用行为分析、特征提取和动态执行等多方面对恶意软件进行研究,但缺乏对恶意应用作者系统的、全面的分析。本文从Android应用作者的角度对应用程序展开研究,解决应用作者识别和行为分析问题。为准确识别应用作者,提出一种二阶段方法A~3Ident,包括作者解耦和作者识别两个阶段
学位
武汉东湖风景名胜区是典型的城市型风景名胜区,为进一步提升景区的品质,将东湖打造为世界城中湖典范和世界级城市生态绿心,武汉相关部门结合《武汉东湖风景名胜区总体规划(2011—2025)》开展了东湖风景名胜区喻家山服务区详细规划的编制工作。文章以东湖风景名胜区喻家山服务区详细规划为例,在分析服务区现状的基础上,提出了“完善保护区划、加强生态保护,强化功能结构、提升空间环境品质,突出东湖水域特色、明确功
期刊
基于植被净初级生产力和覆盖度的植被生态质量指数构建方法,对长白山自然保护区2000—2021年植被生态质量变化情况进行评估分析。结果表明:长白山自然保护区是吉林省绿色程度较高、生态环境好的区域,植被覆盖度和年净初级生产力总体呈上升趋势;生态质量指数随着海拔的升高而降低,2000年以来,植被生态质量指数总体呈上升趋势;96.6%的区域植被生态质量在持续提升,特别是西南坡增幅显著,生态质量变差区域主要
期刊