论文部分内容阅读
随着信息技术的发展,信息系统越来越深入地融入社会生活,信息安全的重要性日益凸显。在身份认证和敏感信息监控领域,生物识别技术正得到越来越多的研究与应用。说话人识别(Speaker Recognition, SR,又称声纹识别)由于部署简单、成本低廉,一直是生物识别技术的一个重要分支。近年来,随着各类模式识别算法(例如模板匹配法、概率统计法、机器学习分类器方法等)以及特征向量处理技术(例如基于机器学习和数据挖掘方法的特征筛选、特征向量构造等)研究的日益深入,各类说话人识别系统的准确性逐渐提高,应用不断扩展。在目前的说话人识别研究中,当目标说话人的规模不断增加时,说话人识别的准确率随之衰减。本文针对该问题,研究相应的特征向量生成方法、说话人分类器的训练方法以及说话人识别的并行计算方法,论文的主要工作成果和创新包括:1.提出了一种利用声学特征图,声学特征可筛选,能有效提高识别准确率的2D-Haar声学特征超向量生成方法目前常见的音频特征向量生成方法,难以进行时序信息与跨维度信息的联合分析。通过对一定数量的连续音频帧的常用声学帧特征值进行跨维度、跨帧的加减运算,建立维数达到数十万的声学特征Haar-like模式,再根据不同的音频识别任务,用机器学习算法在高维Haar-like模式空间中进行特征筛选,即可生成2D-Haar声学特征超向量。该特征超向量的潜在维数可以更高,并可针对具体的识别应用筛选出不同的Haar-like模式,提升特征向量的表达能力,从而提高识别准确率。实验结果表明,在音频事件识别、说话人识别、说话人性别识别三种应用中,2D-Haar声学特征超向量都获得了比常用声学帧特征更高的总体准确率,可使SVM、AdaBoost、C5.0三种算法的总体准确率最高获得4.2%到9.5%的提升。2.提出了一种利用随机模式筛选特征的2D-Haar声学特征超向量生成快速计算方法2D-Haar声学特征超向量生成过程中,声学特征的Haar-like模式的筛选耗时较长,可通过优化Haar-like模式的筛选过程以提升计算效率,即在每轮迭代过程中,并不是对所有的Haar-like模式进行筛选,而是对随机选定的、特定个数的Haar-like模式进行迭代运算,在保证识别效果的前提下精简筛选过程、提升计算速度。实验结果表明,与常用声学帧特征相比,快速计算方法的训练速度是前者的2.9-6.8倍,识别速度是前者的4.9-8.9倍,并可获最高4.8%-8.8%的准确率提升。3.提出了一种通过两次迭代训练能有效降低目标说话人规模对识别准确率影响的说话人识别方法随着目标说话人规模的增加,特征空间中的样本密度持续提高,从而造成识别准确率不断衰减。提出一种通过两次迭代训练能有效降低目标说话人规模对识别准确率影响的说话人识别方法。在特征向量生成环节,针对不同说话人筛选出不同的Haar-like模式组合,生成因人而异的2D-Haar声学特征超向量,代替常用声学帧特征以提高不同说话人特征向量之间的差异、降低特征空间中的样本密度。在说话人分类器训练环节,利用AdaBoost.MH算法“当弱分类器个数大于特征维数时准确率更优”的特性,训练一个弱分类器个数大于2D-Haar声学特征超向量维数的说话人分类器,提高说话人分类器样本划分的准确性。实验结果表明,与GMM-SVM算法相比,该方法的识别速度更快,准确率更高,识别准确率随说话人规模增加而衰减的趋势更缓,在不同目标说话人规模下,该方法的平均识别准确率比GMM-SVM算法高2.5%。4.提出了一种利用CPU多核技术,支持大规模目标说话人识别应用的说话人识别并行处理方法CPU多核技术可提升大规模说话人的识别效率,提出ERF算法,构建说话人识别并行处理方法。ERF算法不存在贯穿始终的迭代运算,可通过程序并行化获得更高的效率提升。利用操作系统脚本进行16核并行运算时,并行ERF方法的训练倍速为5.53,是并行GMM-SVM方法的2.3倍、并行Turbo-Boost方法的2.2倍;并行ERF方法的识别倍速为8.33,是并行GMM-SVM方法的1.9倍、并行Turbo-Boost方法的1.3倍。此外,ERF算法在训练开始前对非目标说话人的特征超向量进行有放回随机取样,平衡训练集内非目标说话人与目标说话人的数据量,能够缓解大规模说话人分类器训练样本数据的不平衡问题。实验结果表明,随着说话人规模的不断增加,所提方法识别准确率的衰减趋势更缓;不同目标说话人规模下,该方法平均识别准确率比采用GMM-SVM算法提高2.7%。