论文部分内容阅读
在实际生活中,身份认证应用在各个领域,身份认证的方法有很多种,比如指纹、虹膜、人脸等等,声纹识别也是其中一种,又叫说话人识别,是通过说话人的声音辨识出说话者身份。说话人识别又分为与文本相关的和与文本无关的,本文主要研究与文本无关的说话人识别技术,因为其更具有使用价值,并且提升空间比较大。通过对其关键技术的研究,以提高系统识别性能。本文在现有与文本无关的说话人识别技术的基础上,结合语音学、音韵学及其语音信号的特征,研究基于文本无关的说话人识别关键技术。主要的研究内容包括以下几个方面:清浊音划分。在对语音信号排除静音信号基础上,针对过零率划分清浊音方法,在处理振幅均值不在零点的信号时失效的问题,提出了有效翻转率方法;又针对清、浊音有效翻转率相似部分,运用频谱振幅均值方法区分清浊音。基音周期检测。在对语音信号静音、清音、浊音划分的基础上,针对语音信号周期特征明显段分布随机性问题,提出改进的LVAMDF(变长度平均幅度差函数法)及综合多因素基音检测算法,该算法对语音信号进行周期特征明显段和周期特征不明显段的聚类划分,同时,获取周期特征明显语音段的所有基音周期的起止端点,针对少数基音周期划分倍频或半频问题,提出识别、修正方法,其识别、修正率极高。与文本无关的说话人识别系统。根据与文本无关的说话人识别系统原理,运用matlab和C++混合编程,完成说话人识别系统和系统测试,系统的等错误率可达0.4762%。基于音素分类的说话人识别系统理论研究。在TIMIT语料库的音素标注基础上,运用混淆矩阵原理,研究了不同说话人不同发音特征的相似性和差异性,从而以强调差异性避开相似性的方法提高系统性能。该部分完成了部分理论研究和部分功能实现。本文提高了系统2处关键技术的性能,完成了与文本无关的说话人识别系统的功能,最后提出了系统识别原理的改进方案。由于工作量较大,改进方案还需完善和验证,系统性能还需要从音素识别、特征提取和系统原理方面进一步提升。