基于人耳听觉特性的语音分离研究

来源 :东南大学 | 被引量 : 6次 | 上传用户:zxhouxingzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离作为语音信号处理系统的前端,其分离后的语音质量直接影响着整个系统的性能。以往的语音分离研究大多建立在固定方位目标的基础上,且在混响和噪声情况下性能急剧下降。本文结合人耳的听觉感知特性,基于双耳空间特征和谱特征,研究鲁棒的双耳语音分离算法。论文提出的算法主要包括两个方面:基于深度神经网络的双耳语音分离算法和基于混合特征的双耳语音分离算法。(1)基于深度神经网络和多分类的双耳语音分离算法。本文将分离的基本单元从频点扩展到子带,将前向方位的语音分离看成多分类问题,提取双耳空间特征耳间时间差ITD(Interaural Time Difference)、耳间强度差ILD(Interaural Level Difference)和互相关函数CCF(Cross Correlation Function),用于训练一个包含两个隐层、顶层为Softmax的神经网络,结合定位的先验信息,取概率较大的方位作为时频单元的声源归属,实现前向任意两方位角间的语音分离。本文同时对分离的理想二值掩膜IBM(Ideal Binary Mask)进行平滑,提升语音的听觉感知效果。论文采用SAR(Sources to Artifacts Ratio)、SDR(Source to Distortion Ratio)、SIR(Source to Interferences Ratio)、PESQ(Perceptual Evaluation of Speech Quality)作为评价指标,仿真结果表明此算法优于传统的DUET(Degenerate Unmixing Estimation Technique)算法。(2)基于混合特征的双耳语音分离算法。利用计算听觉场景分析,将空间特征和频谱特征进行结合,用于双耳语音分离。分别对说话人分离、语音增强两种情况进行分析。在频谱特征提取模块,利用波束形成器对双耳信号进行预处理用于提取频谱特征的单声道信号,随后提取单声道分离的频谱特征参数。之后将频谱特征和空间特征结合后输入深度神经网络进行训练,并在多种环境下进行仿真实验。本文采用STOI(Short-time Objective Intelligibility)和PESQ作为评价指标,仿真结果表明在语音增强中,将空间特征和频谱特征进行结合能提升语音分离的质量,且在不同混响环境下具有良好的范化性能。
其他文献
阐述火车站综合管理系统从需求分析、系统设计、技术选型到系统实现的一个完整系统开发过程。分析系统的功能性需求和非功能性需求,建立系统整体架构图。在整体架构图的基础
根据电力工程施工特点,分析了电力工程施工管理中存在的主要问题,并据此提出了有效的管理措施,以达到电力工程项目施工的预期目标。
<正>一、项目的研究目的和意义近几年来,生物医药产业的快速发展掀起了一阵建设生物医药产业园区的热潮,关于生物医药产业园区建设的研究也有一些,但是由于我国的生物医药产
会议
随着实验室进一步开放的要求,在传统实验室管理的基础上对实验室进行开放式管理日益重要;利用MVC架构、Java技术与MYSQL数据库等开源技术,建立了基于网络面向师生的开放实验
余天休是中国社会学学科初创时期的重要人物之一。1922年他组织创立了中国第一个全国性的社会学学术团体——“中国社会学会”,创办了中国历史上第一份社会学学术研究刊物——
归纳了国内外对紫外线用于空气消毒的观点,认为紫外线消毒使细菌变异是一个大问题;紫外线消毒不是过滤器方法的代替,仅仅是必要时的补充。 Summarizes the domestic and for
支架成形术在介入治疗中占有非常重要的地位。目前临床应用主要以永久性支架为主,具有炎性增生和再狭窄等并发症存在,难以在良性狭窄性病变及儿童病例中广泛应用。生物可降解
目的探讨28例糖尿病酮症酸中毒患者的临床急救方法及效果。方法 56例糖尿病酮症酸中毒患者随机分为观察组和对照组,各28例。观察组采取综合救治措施,对照组采取常规治疗。观
利用一种新型的双枝节"U"型谐振器结构,设计了一款双通带微带带通滤波器。该谐振器是在"U"型谐振器的中间和侧臂上各引入了一个枝节得到的,调节侧臂上枝节的特性导纳能够在不
苏霍姆林斯基说:"儿童的智慧在他们的指尖上。"可见动手操作对学生的学习是多么重要。通过动手操作可以培养学生的思维的深刻性、灵活性和批判性。