基于双耳空间信息的语音分离研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:ciweiqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离技术尤其是基于人耳听觉的语音分离技术,在语音增强、语音识别和助听器等语音信号处理领域具有重要的地位。本文以双耳空间信息为基础,结合语音信号的稀疏性,提出了两种基于双耳定位的语音分离方法:基于时频掩蔽的语音分离和基于压缩感知的语音分离。对于基于空间信息的多声源混合语音分离,论文主要做了以下几方面的工作:(1)分析了双耳定位的语音分离的研究思路。空间听觉是人耳听觉的一个重要特性,多声源环境下,人耳听觉系统首先整合声源的空间信息,经由大脑的中枢神经,进行定位及分离,本文根据该特性,提出了先通过双耳定位算法对多声源进行定位,再根据定位结果进行语音分离的思路。(2)研究了双耳多声源定位算法。通过对耳间时间差和耳间强度差两个声源定位线索进行模型训练,建立方位映射模型,将多声源混合语音进行参数提取,通过耳间时间差与耳间强度差的联合判定,获取多声源定位结果,包括声源个数及其对应的水平面上的角度。实验结果表明,该定位算法对单声源至多声源定位有较高的定位准确度。(3)提出了基于双耳定位结果的时频掩蔽语音分离算法。在多声源环境下,在频域的同一频点,能量最大的声源将掩蔽其它能量较小的声源,最终只有一个信号占主导,本文依据语音信号的频域稀疏性,根据声源定位的结果,将所有时频点都划分为离该时频点距离最近的声源,将每个声源所划分到的时频点进行时域转换,获得该声源的分离信号。基于双耳定位的时频掩蔽语音分离其实验结果要明显优于同类算法。(4)提出了基于双耳定位结果的压缩感知语音分离算法。本文分析了基于双耳的多声源混合模型,其形式与基本的压缩感知模型是相一致的,因此,本文利用双耳定位结果、声源的字典信息和混合语音构建出压缩感知模型,采用正交匹配追踪算法对多声源混合语音进行重构,实验结果表明,语音分离指标SIR、SNR与时频掩蔽方法相比获得有效提高。
其他文献
室内空气质量与人的健康有密切的关系,作为装修与家具主要材料的人造板材由于甲醛浓度超标成为室内空气污染的主要因素。从源头上控制甲醛的浓度,不但能减少对人造板材企业的利
声呐是舰船上重要的电子设备,它通过处理接收到的目标声信号来实现对目标的探测、定位和识别等。然而声呐会受到其所在环境的各种噪声源的干扰,声呐平台的机械噪声、螺旋桨噪
溶解氧(Dissolved Oxygen,DO)是指溶解于水中分子态的氧,是水生生物生存不可缺少的条件,也是水体受有机污染程度的重要指标。快速、准确、连续测量水体溶解氧的含量,对工农业生产
随着智能电网的发展,电网的智能化逐步覆盖从发电端至用户端之间的各个环节,并具有可观测特性、可控制特性、自适应特性以及自愈性特性,而配用电网与用户用电服务直接相关,是当前电网智能化发展的研究关键点与难点。依托电力流传输与控制,采用信息与通信融合的新技术是实现配用电网智能化的技术切合点,依据所承载的业务信息同时具有工业传输控制及电力流结构特征,采用一张具有高传输性能、安全性能及平台化的通信网是实现配用
数字荧光示波器(DPO, Digital Phosphor Oscilloscope)是第三代示波器,它结合了前两代模拟示波器和数字存储示波器的优点,既有前者高速的波形更新率和荧光显示效果,也具备后
合成孔径激光雷达(SAL—Synthetic Aperture Laser Radar)可以有效地提高合成孔径激光雷达的分辨率、显著增大雷达的调制带宽、提高传输功率密度以及容易实现系统的小型化和
日前,由国内主要龙头造纸企业为主组成的全国工商联纸业商会与物流业巨头中海集装箱运输股份有限公司、大连港集团有限公司签署战略合作协议,双方承诺建立稳定、长期的战略合
本文对国内外的各种时延估计算法进行了分析和比较,简要说明了它们之间的相互联系,各自的优缺点。 本文在研究通过峰值检测估计时延的基础上,提出了基于经验模式分解(EMD)的H