文本相关的说话人认证系统

论文部分内容阅读

说话人认证技术是语音技术的一个重要分支，通过声音对说话人身份进行认证，是生物特征认证技术的一种。本文主要针对文本相关的说话人认证技术做了研究。说话人认证系统由三个部分构成：前端语音特征提取部分、模型训练与识别部分、判决部分。前端特征提取部分主要包括语音端点检测技术、以及各种信道均衡技术、特征选择和特征变换技术。论文主要研究了特征选择的方法，使用了一种基于互相关信息的特征选择算法。使用了这种特征选择算法后，在选择特征达到18维后系统的性能就比基线系统(26维特征)有所提高，在选择特征达到30维以上后，性能比基线系统有很大提高，并且系统性能稳定。由于实现方法和使用方法的不同，文本相关的说话人认证可以有许多不同的实现方案，论文研究了用户定制密码的说话人认证和系统提示密码的说话人认证。在用户定制密码的说话人认证系统中重点研究了为语音密码建立整句模型的方法，使用了DTW，HMM和GMM模型实现了对用户的建模和识别。整句模型简单而且适合于先验知识较少、训练数据量小的情况。本文研究了DTW为说话人建模的实现细节，在HMM建模中研究了HMM结构(主要是状态数目)的选择。本文建立的系统提示密码的认证系统是基于汉语数字集合的，文中研究了汉语数字集合的认证特点，以及建立特定用户的音素HMM的方法，并在此基础上实现了认证系统。认证系统得判决部分主要探究了得分归一化的理论意义和实现方案，尤其征对文本相关的认证系统数据量小的特点，采用了测试归一化的方法，同时选择前几名的得分作为归一化得分，并且在归一化计算时忽略得分的方差。

与本文相关的学术论文