论文部分内容阅读
说话人识别是指通过声音识别一个人的身份。通常来讲,这需要大量的语音数据。然而,现实生活中,语音数据的获取有着各种各样的困难。因此,使用提供的语音数据(或长或短)来有效地识别说话人身份变得至关重要。近来,不少研究者关注短语音说话人识别(Short Utterance Speaker Recognition,简称SUSR),并基于短语音提出了新的方法以提高说话人识别的性能。然而,大多数的方法将短语音设定为10秒左右,只有近期的研究将其设定在3秒左右。现有研究中最短的语音为2秒,其最小等错误率(Equal Error Rate,简称EER)为21.98%。基于现有短语音说话人识别的研究成果,本文提出使用不超过3秒的语音(汉语或英语)对说话人进行有效地识别,包括以下内容和创新点:1)提出文本无关的短语音说话人识别方法。在短语音中,语音变化恶化了说话人识别的性能。尽管文本相关的说话人识别有助于解决该问题,但是通过短短几秒的语音片段进行说话人识别还不完全可行。因此,我们提出在基本的音素识别中使用语音单元知识,这不仅使SUSR文本无关,且保留了潜在的语音信息。2)提出使用音素序列而不是连续语音进行短语音说话人识别的思路。由于音素是最小有意义的语音单元,使用音素序列可增加识别过程中的有用信息,且保留了说话人的特点。3)为了实现以上目标,我们使用了音素分类,即将相似的音速分为一类。这不仅解决了稀有分类中数据稀疏的问题,而且也使得不同类别的音素分布均匀。基于此,我们提出了音素类别的短语音说话人识别方法。4)为设计音素类别,我们学习了音素的语音和音韵属性,并基于发音特征设计了元音分类,以进一步实现基于音素分类的短语音说话人识别。5)为了测试音素组合的情况(元音和辅音),我们设计了音节分类,这是最常见的元音和辅音的组合。基于普通话的音节结构,我们设计了辅音分类,并通过组合元音类别和辅音类别设计了音节分类。为了验证本文的方法,我们基于3秒、2秒和1秒的音素类别序列分别对全局背景的元音分类模型、辅音分类模型和音节分类模型进行了实验。实验结果证明大量的说话人信息包含在诸如音素和音节等小语音单元中,音节分类是说话人识别最好的选择。元音分类同样也在短语音说话人识别中起到很好的效果,不过辅音分类却在短语音识别中不能达到好的效果。实验结果表明,与现有SUSR系统相比,在基于2秒的测试语音进行说话人识别时,本文方法(基于高斯混合模型和全局背景模型(Gaussian Mixture Model–Universal BackgroundModel))在带有韵律标注的语料库ASCCD的最小EER相对降低了54.50%,绝对降低了11.8%,在NIST SRE2008Short2训练集的最小EER相对值、绝对值分别降低了6.73%和1.48%。