论文部分内容阅读
语者识别又称声纹识别,是根据语者的语音对语者身份进行辨认或确认的技术。伴随着计算机和网络信息化技术的高速发展,身份验证的数字化、隐性化、高效化和便捷化显得越来越重要,说话人识别作为一种生物认证技术,由于其凸显出的隐性化和简单等优点,在语者监控、身份验证、金融安全及司法刑侦等领域有了越来越多的应用,是当前语音信号识别领域的研究热点。说话人识别技术研究的关键是语音信号的特征提取和模式匹配等问题。其中语音前处理以及特征提取和优化部分尤为重要,其结果直接影响说话人识别系统性能好坏。论文主要研究内容如下:(1)归纳总结说话人识别技术的原理、发展与现状、研究热点与难点,介绍了目前用到的语音特征和模式匹配方法。(2)研究了当前语音和语者识别用到的语音特征,对其辨识力鲁棒性等多个方面的性能进行实验,筛选合适的语音特征并进行特征融合。本文中选择了相关度不高的SCF和MFCC特征进行帧级别的合并,得到的混合特征再与SCM特征进行打分级别的合并。(3)在说话人识别系统的鲁棒性研究问题上,着重对说话人识别系统的前端输入语音前处理和产生的语音特征后处理进行了研究,以解决加性噪声和电话信道带来的训练识别语音不匹配问题。对加性噪声引起的不匹配,对语音增强技术及其改进技术进行了实验研究,选取合理的方法作为前端去噪方法。对电话信道带来的不匹配问题,对比各种特征域规整化技术的效果。(4)搭建了一个具备鲁棒性的完整文本独立语者识别系统,前端基于卡内基梅隆大学的sphinx语音识别系统,对其预处理和语音增强部分、特征提取部分以及特征规整化处理进行改进。后端使用java完成在线和离线训练,在线识别,以及识别率测试等功能。并对系统进行了测试,验证设计的合理性和功能的完善性。