论文部分内容阅读
语音信号分离在语音识别、计算机听觉等方面具有重大的研究意义,已经成为学术研究的焦点。盲源分离(Blind Source Separation, BSS)是指在只知道观测信号而源信号与传输信道参数均未知的前提下,估计出源信号。由于对先验知识要求低,BSS已成为语音信号分离的一种主要方法。混合语音的实际模型大多情况下是卷积混合模型。针对该模型,频域BSS方法在进行分离时,将时域的卷积运算转换成频域的乘法运算,计算量小,速度快,因此已成为解卷积混合的主流方法。但是,BSS固有的幅度模糊性和顺序模糊性对频域方法有很大的影响,特别是顺序模糊性的影响最为严重。如果不能很好地解决频域算法中存在的模糊性问题,语音分离性能将受到很大影响,甚至导致分离的彻底失败。为了更好地消除卷积语音盲分离频域算法中的模糊性,本文重点做了以下三个方面的工作:(1)研究了最小失真法与分离矩阵归一化法等两种幅度模糊性消除方法的原理,通过仿真实验比较这两种方法对JADE、KM-F和CMN等BSS算法幅度模糊性消除的有效性,验证了最小失真法能够更有效的消除幅度模糊性;(2)比较分析了基于源信号不同先验信息的两种距离函数,研究了对频域盲分离顺序模糊性消除的半盲BSS算法,并通过仿真实验,验证了基于能量信息距离函数的半盲算法可以更有效地消除顺序模糊性,并且分离后再排序的全盲BSS算法性能相比,半盲BSS算法的性能更优;(3)通过研究几种典型的概率密度分布与语音信号在不同频率段的分布特性,提出了分频段独立向量分析(Independent Vector Analysis,IVA)算法,使其在不同频率段采用不同的分布模型,进而更好地解决了顺序模糊性问题。大量的仿真实验与实际语音分离实验结果表明,分频段IVA算法比原始IVA算法在顺序模糊性消除上更为有效。