论文部分内容阅读
语音盲解卷积是语音信号处理领域极具挑战的研究课题之一。语音盲解卷积的目的是根据观测混响信号实现对源信号和声学信道的恢复,其意义不仅在于消除混响效应对自动语音识别、免提电话、助听器等应用的不利影响,同时通过所估计的声学信道还可以获得系统的声学特性,这对声学信道相关的声重放、语音增强等应用至关重要。然而,由于盲解卷积问题的非适定性,必须要为问题的求解提供一定的先验信息,如何获取这样的信息就成为问题求解的关键。本文研究了单输入单输出室内声学系统的语音盲解卷积问题,从挖掘和利用声学信道特性入手,围绕描述声学信道的房间脉冲响应展开工作,通过对房间脉冲响应施加正则约束和进行声学建模两种方式来获取先验信息,求解语音盲解卷积问题。本文主要研究内容如下:首先,研究了基于稀疏约束的语音盲解卷积问题。针对混响较低声学系统,提出了一种基于稀疏约束的语音盲解卷积模型,并给出了相应的求解方法。当混响较低时,房间脉冲响应可认为仅包含稀疏的前期反射部分。为此,所提模型采用了一个l1范数正则项对房间脉冲响应的稀疏特性进行约束;还采用了一个指示函数对源信号的动态范围进行约束,以进一步降低解空间维度。实验结果表明,所提方法不仅可以获得比同类方法更好的结果,而且通过引入对源信号的动态范围约束,还可以在一定程度上避免盲解卷积常见的尺度模糊问题。其次,研究了基于稀疏和密集联合约束的语音盲解卷积问题。针对混响较高声学系统,提出了一种基于l1-l2联合范数约束的语音盲解卷积模型,并给出了相应的求解方法。当混响较高时,房间脉冲响应同时包含稀疏的前期反射部分和密集的后期反射部分。针对此种情况,所提模型通过l1范数正则约束和l2范数正则约束分别考虑了前期反射的稀疏特性和后期反射的密集特性,以此获取先验信息,并用于语音盲解卷积问题的求解。实验结果表明,所提方法不仅可以较好地恢复源信号和房间脉冲响应,同时通过控制l2范数正则项的惩罚参数还可以实现对房间脉冲响应后期反射的抑制。然后,研究了房间脉冲响应的声学建模问题。通过对房间脉冲响应的声学建模来获取声学特性。针对传统字典学习方法无法直接处理时延信号的问题,提出了一种用于处理时延信号的多项式字典学习技术,使得从带有时延的房间脉冲响应学习获取描述声学特性的字典成为可能。由于一个多项式矩阵既可以表示为一个系数为标量矩阵的多项式(称为矩阵的多项式模型),又可以表示为一个元素均为多项式的矩阵(称为多项式的矩阵模型)。基于多项式矩阵的这两种不同表示方式,本文提出了两种用于多项式字典学习问题的求解方法。第一种方法可以通过对多项式矩阵的系数矩阵进行操作将多项式字典学习问题转化为传统字典学习问题,使得任何传统字典学习方法均可用于多项式字典学习问题的求解;第二种方法则可以直接对多项式矩阵进行操作,而无需将多项式字典学习问题转化为传统字典学习问题再行求解。此外,作为多项式字典学习的相关工作,本文还提出了一种用于多项式“信号”恢复的多项式稀疏表示方法。实验结果表明,所提方法能够解决多项式字典学习问题,由其学习获得的多项式字典能很好地描述声学特性,并可用于对房间脉冲响应的建模和去噪恢复。最后,研究了基于多项式字典学习技术的语音盲解卷积问题。针对基于稀疏约束模型和基于l1-l2联合范数约束模型适用范围的局限性,提出了一种基于多项式字典和稀疏表示的语音盲解卷积模型,并给出了相应的求解方法。所提模型通过预训练的多项式字典可以近似地表示待估计的房间脉冲响应,由此为语音盲解卷积提供先验信息。实验结果表明,基于多项式字典和稀疏表示的语音盲解卷积方法具有更好的通用性;由于预训练的多项式字典能很好的描述声学特性,这使得盲解卷积所估计的房间脉冲响应与真实值更为接近。