论文部分内容阅读
说话人识别技术以其方便、经济、易于被接受以及安全可靠等特点日益成为人们生活和工作中重要且普及的用户身份验证方式。但是,在嵌入式平台上使用常规的方法难以达到实时处理的要求。对于基于动态时间弯折(Dynamic Time Warping,DTW)算法的文本相关说话人识别系统来说,在普通PC机器上很容易达到实时的效果,但将其移植到嵌入式平台,如多普达掌上电脑P800(CPU主频为201MHz)时,训练和识别速度就会很慢,难以满足实时性要求。目前,国内外针对嵌入式文本相关的说话人识别实现的研究,鲜有与运算速度相关的。
本文针对这一现状,为了使文本相关说话人识别系统在嵌入式平台上得以实用,借鉴了语音识别中的非线性分段(Non-Linear Partition,NLP)思想,把语音按照内容划分为N段,分别对每段语音建立说话人模型。在对说话人识别主流的建模方式高斯混合模型(Gaussian Mixture Model,GMM)和通用背景模型-高斯混合模型(Universal BackgroundModel-Gaussian Mixture Model,GMM-UBM)的方法进行比较和分析后,根据训练数据较短的特点以及实际使用的特殊环境,最终采用单高斯模型作为说话人模型。单高斯模型简单的特点同时也决定着它不能够精确的刻画说话人的个性特征。因此,系统采用多遍训练进行模型融合,并针对文本相关的说话人识别语料选择合适的分段准则。除此之外,系统还使用双模型距离判决手段提高系统性能。
在同一个语料库上测试得到的实验结果表明:基于非线性分段算法的系统等错误率为1.21%,与基于DTW的基线系统相比,相对性能提高了57%,并且系统的训练时间降低到基线系统的23%,识别时间降低到50%,在实时性和实用性上均有着良好的效果。