论文部分内容阅读
本文对混叠语音的听觉场景分析问题进行了研究,建立了一个初步完整的混叠浊音听觉场景分析系统,可以实现浊音的有效分离。在引入清浊音判别后,还可以推广到清音与浊音的混叠语音的分离。研究的主要成果有:
1.针对以往混叠语音听觉场景分析系统存在的分离效果差、系统结构复杂、计算量大等问题,本文运用翘曲离散傅立叶变换算法,提出了基于翘曲离散傅立叶变换的混叠浊音分离模型,及基于此模型的混叠浊音听觉场景分析系统。仿真实验表明,新系统可实现混叠浊音信号的有效分离。新系统的优点是:(1)语音分离效果好。由于WDFT算法可以实现在不增加采样点数的情况下,在任意的频域范围内提高频谱精度,因此可以更有效地区分相近谐波,使混叠语音信号各频率分量的分离更准确有效。(2)系统结构较为简单。当两个语音信号的基音频率确定后,相应的谐波参数也就确定下来了,这就省去了听觉场景分析系统中复杂的分组环节,降低了系统结构的复杂度和计算量。(3)该算法可推广到多个语音信号的分离。
2.基于语音信号倒谱域的特点,将自相关与同态处理系统相结合,本文提出了基于倒谱的混叠语音基音周期提取的新算法。由于针对混叠的两个信号的幅度差别的大小,使用了不同的基频检测方法,因此本文提出的算法能在较大混叠信号动态范围内有效提取基音周期。实验结果表明,本文提出的混叠语音基音周期提取新算法具有听觉场景分析所需要的较好的准确度和适应性,所提取的基音周期可以作为听觉场景分析系统的声音归类线索。
3.本文利用正弦语音合成方法对分离的语音信号进行了重建与合成。重建语音的试听效果良好,可懂度较高。由于合成是采用基频与倍频的正弦信号的叠加,所以声音听起来有较明显的周期。同时由于分离得到的语音信号参数只含有浊音的语音特性,没有考虑到清音部分,所以合成得到的语音效果没有原声自然。