论文部分内容阅读
人的听觉系统可以在多个讲话者的环境中区分和跟踪自己感兴趣的语音信号,并分辨出自己所需要的声音,这种分辨能力是人体内部语音理解机理所特有的一种感知能力,也就是人类的语音分离的能力,称为“鸡尾酒会效应”。在语音和听觉信号处理领域中,如何从多个说话者的混叠语音信号中分离出各个语音源信号或提取出人们感兴趣的目标语音,来模仿人类的语音分离能力,成为一个重要的研究问题。这也是语音信号处理中的一个重要研究方向,对语音识别、语音增强等都有着非常积极的促进意义。盲源分离(Blind Source Separation,BSS),也叫盲信号分离,是指在不知源信号和传输信道参数的情况下,根据输入源信号的统计特性,仅由观测信号恢复出各个源信号的过程。它是实现语音分离的主流方法。通常为了研究方便,盲源分离算法大都要求混叠是超完备(overcomplete)或完备(complete)的,即观测信号的数目大于或等于源信号的数目。然而,在实际语音采集、通信和处理过程中,由于实际条件所限,不可避免地会出现观测信号的数目会小于源信号的数目的情况,即欠定(underdetermined)情况,因此寻找有效的欠定语音盲分离方法具有非常重要的实际意义。独立分量分析(Independent Component Analysis,ICA),是在研究盲源分离过程中出现的一种新兴的盲分离技术,自其出现便成为信号处理、数值分析、统计及神经网络等领域中的热点研究问题,并在语音处理、生物医学信号处理、模式识别、特征提取、数据压缩、图像处理和电子通讯等方面获得了非常广泛的应用。目前已有不少学者提出了多种有效的ICA算法,但是这些ICA算法大多都不考虑欠定的情况。对于欠定情况下的盲源分离,经典的ICA并不能解决。稀疏表征(Sparse Representation)作为一种有效的信号表征手段,近年来一直是热门的研究课题。信号的稀疏性给信号处理带来很大的方便。一般的信号在时域中并不是稀疏的,因此在很多应用中需要寻找有效的稀疏表征来进行信号处理。稀疏分量分析(Sparse Compoent Analysis,SCA)就是基于稀疏表征的一种信号处理方法,与ICA不同的是它在盲源分离中是通过估计使得输出的信号尽量地稀疏,它能有效地解决欠定情况下的盲源分离问题。语音信号在时域和某些变换域都表现出一定的稀疏性,因此可以把稀疏表征应用到欠定情况下的语音盲分离中,从而解决了ICA不能解决的难题。目前的混叠语音分离大多是建立在无噪环境中的混叠情形下,在实际语音通信中,不可避免会受到周围环境噪声的影响,因此寻找有效的带噪混叠语音分离方法具有非常重要的理论价值和实际意义。带噪混叠语音包含了多个说话者和环境噪声,其分离较为困难。目前,一些学者正致力于带噪盲源分离算法的研究,但总体研究成果不多。本论文在分析和总结前人研究工作的基础上,对ICA的基本理论、经典算法及其在语音信号处理中的应用进行了分析和探讨,并针对当前语音分离的研究现状,对欠定瞬时线性混叠、含噪下的语音盲分离算法进行了研究和探索。主要进行了以下几种解决方案的研究:1.提出了基于稀疏表征的二阶段欠定混叠语音盲源分离方案。分析了欠定盲分离中常用的稀疏分量分析(SCA),结合ICA的基本判据,在源估计阶段,提出了一种新的基于高阶统计特性的稀疏表征,从而达到更好的分离。2.针对含噪情况,加入了小波去噪对基于稀疏表征的二阶段欠定混叠语音盲源分离方案进行了改进和扩充。仿真实验表明利用本方案进行语音分离能够获得较好的分离结果。3.对变换域中的欠定语音分离技术进行了探索。针对现有的时频域语音分离的研究算法,结合ICA技术、二进制时频掩码技术等,对欠定混叠语音进行了分离实验。总体来讲,目前国内外关于欠定混叠语音盲分离方面的研究成果非常少,本论文结合稀疏分量分析(SCA)和独立分量分析(ICA)技术,对两种不同的解决方案进行了研究,取得了很好的分离效果。论文最后我们对本课题的研究进行了总结和展望。