论文部分内容阅读
随着科技水平的发展,人机交流的需求也随之大大增加,语音交流作为最为方便直接的交互方式,在实际应用环境中却常常受到各种噪声的干扰,使其应用受到限制。相比机器,人类即使利用一只耳朵也能在嘈杂的环境中有效地分辨出目标声源的信息,利用计算机技术对人类感知语音信息的过程进行模拟仿真,即为计算听觉场景分析(Computational Auditory Scene Analysis,CASA)。基于CASA的语音分离系统对混合语音的先验信息要求不高,适用性较强,激起了人们极大的研究兴趣。本文对CASA的理论知识进行了深入了解,在此基础上,对基于CASA的传统单通道语音分离系统进行了改进,主要工作如下:(1)以谐波特点为分类线索的CASA语音分离算法最终分离结果的好坏与基音估计的准确程度有着密不可分的关系,而传统的基音检测算法在较强的噪声干扰下性能不佳。针对这一问题,提出了一种基于多分类支持向量机的基音检测算法。该算法使用语音信号的静态帧级特征对多分类支持向量机进行监督训练,计算出各帧语音可能的几个基音大小作为对应的基音候选值,并使用主体延伸法对得到的候选基音进行处理,在候选基音中选取合适值连接起来得到被测语音的基音频率估计曲线。实验结果表明,该方法可以有效提升低信噪比环境下的基音检测率,为CASA语音分离系统提供了一个更好的分类依据。(2)针对传统基于自相关函数的CASA分离算法在噪声干扰下会舍去过多的语音信息的问题,提出了一种改进算法。该算法以一种对噪声干扰具有鲁棒性的频域特征为特征线索,代替传统的相关函数计算各个时频单元的周期信息,将这些周期信息与用本文所提基音估计算法检测到的主导基音进行匹配性测试,标记各个语音分量。实验证明,更加准确的主导基音会提高CASA语音分离系统的性能,同时使用本文提取的频域特征可以保留更多的语音信息,使合成的目标语音有着更高的可懂度,同时也有利于后续的语音信号处理。