论文部分内容阅读
语音具有语言信息与个人信息;语言信息表示说话人的共性特征,个人信息表示说话人个性特征。进行说话人识别时,需要保存说话人个性信息并同时抑制语言信息。然而,语音信号的说话人个性信息与语言信息很难分开。为了减小发音内容之间差异对说话人识别的影响,本文提出了音素影响抑制(PhonemeEffect Suppression,PES)法,以便强调说话人个人信息的差异。为了得到在频域上说话人信息的准确分布,本文首先研究了语音频率特性。我们通过得到每个音素在各个子频带上对说话人个性信息的贡献率(PhonemeF-ratio Contribution,PFC),提出了在不同音素的说话人信息的分布。语音受到人的发声器官、发音方式与发音位置的影响。所以在每个音素的说话人信息的分布反映特定生理发音器官与发音方式的个性。本文在三种语言(英语、汉语与朝鲜语)上分别研究了说话人个人信息的声学表达。通过测试每个音素在各个子频带上对说话人个性信息的贡献率,发现浊音、清音和鼻音的都具有不同的说话人个性信息的分布。在此基础上,本文提出了PES方法,抑制了不同音素对说话人个性的影响,得出了说话人个人信息在频域上的分布(Phoneme Effect Suppressed SpeakerInformation Distribution,PES-SID)。最后,本文提出了一种提取说话人特征的新方法,此方法专注于基于说话人个人信息分布的非均匀频率尺度的表示。本文提出的说话人特征用于GMM说话人模型并进行了说话人辨认实验,并与另外两种说话人特征作了对比。实验结果表明我们提出的特征优于其他两种特征。与MFCC(Mel Frequency CepstrumCoefficient)特征相比,对于不同的语言,我们提出的特征都降低了识别错误率:对于英语降低了61.1%,对于朝鲜语68.0%,对中文32.9%。与FFCC(F-ratioFrequency Cepstrum Coefficient)相比,我们的错误率降低了:30%(英语),28.5%(朝鲜语),6.6%(中文)。这些结果表明,本文提出的特征对于不同的语言也具有一定的说话人鉴别鲁棒性。