2D-Haar声学特征超向量生成及大规模说话人识别技术研究

被引量 : 4次 | 上传用户:ouyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,信息系统越来越深入地融入社会生活,信息安全的重要性日益凸显。在身份认证和敏感信息监控领域,生物识别技术正得到越来越多的研究与应用。说话人识别(Speaker Recognition, SR,又称声纹识别)由于部署简单、成本低廉,一直是生物识别技术的一个重要分支。近年来,随着各类模式识别算法(例如模板匹配法、概率统计法、机器学习分类器方法等)以及特征向量处理技术(例如基于机器学习和数据挖掘方法的特征筛选、特征向量构造等)研究的日益深入,各类说话人识别系统的准确性逐渐提高,应用不断扩展。在目前的说话人识别研究中,当目标说话人的规模不断增加时,说话人识别的准确率随之衰减。本文针对该问题,研究相应的特征向量生成方法、说话人分类器的训练方法以及说话人识别的并行计算方法,论文的主要工作成果和创新包括:1.提出了一种利用声学特征图,声学特征可筛选,能有效提高识别准确率的2D-Haar声学特征超向量生成方法目前常见的音频特征向量生成方法,难以进行时序信息与跨维度信息的联合分析。通过对一定数量的连续音频帧的常用声学帧特征值进行跨维度、跨帧的加减运算,建立维数达到数十万的声学特征Haar-like模式,再根据不同的音频识别任务,用机器学习算法在高维Haar-like模式空间中进行特征筛选,即可生成2D-Haar声学特征超向量。该特征超向量的潜在维数可以更高,并可针对具体的识别应用筛选出不同的Haar-like模式,提升特征向量的表达能力,从而提高识别准确率。实验结果表明,在音频事件识别、说话人识别、说话人性别识别三种应用中,2D-Haar声学特征超向量都获得了比常用声学帧特征更高的总体准确率,可使SVM、AdaBoost、C5.0三种算法的总体准确率最高获得4.2%到9.5%的提升。2.提出了一种利用随机模式筛选特征的2D-Haar声学特征超向量生成快速计算方法2D-Haar声学特征超向量生成过程中,声学特征的Haar-like模式的筛选耗时较长,可通过优化Haar-like模式的筛选过程以提升计算效率,即在每轮迭代过程中,并不是对所有的Haar-like模式进行筛选,而是对随机选定的、特定个数的Haar-like模式进行迭代运算,在保证识别效果的前提下精简筛选过程、提升计算速度。实验结果表明,与常用声学帧特征相比,快速计算方法的训练速度是前者的2.9-6.8倍,识别速度是前者的4.9-8.9倍,并可获最高4.8%-8.8%的准确率提升。3.提出了一种通过两次迭代训练能有效降低目标说话人规模对识别准确率影响的说话人识别方法随着目标说话人规模的增加,特征空间中的样本密度持续提高,从而造成识别准确率不断衰减。提出一种通过两次迭代训练能有效降低目标说话人规模对识别准确率影响的说话人识别方法。在特征向量生成环节,针对不同说话人筛选出不同的Haar-like模式组合,生成因人而异的2D-Haar声学特征超向量,代替常用声学帧特征以提高不同说话人特征向量之间的差异、降低特征空间中的样本密度。在说话人分类器训练环节,利用AdaBoost.MH算法“当弱分类器个数大于特征维数时准确率更优”的特性,训练一个弱分类器个数大于2D-Haar声学特征超向量维数的说话人分类器,提高说话人分类器样本划分的准确性。实验结果表明,与GMM-SVM算法相比,该方法的识别速度更快,准确率更高,识别准确率随说话人规模增加而衰减的趋势更缓,在不同目标说话人规模下,该方法的平均识别准确率比GMM-SVM算法高2.5%。4.提出了一种利用CPU多核技术,支持大规模目标说话人识别应用的说话人识别并行处理方法CPU多核技术可提升大规模说话人的识别效率,提出ERF算法,构建说话人识别并行处理方法。ERF算法不存在贯穿始终的迭代运算,可通过程序并行化获得更高的效率提升。利用操作系统脚本进行16核并行运算时,并行ERF方法的训练倍速为5.53,是并行GMM-SVM方法的2.3倍、并行Turbo-Boost方法的2.2倍;并行ERF方法的识别倍速为8.33,是并行GMM-SVM方法的1.9倍、并行Turbo-Boost方法的1.3倍。此外,ERF算法在训练开始前对非目标说话人的特征超向量进行有放回随机取样,平衡训练集内非目标说话人与目标说话人的数据量,能够缓解大规模说话人分类器训练样本数据的不平衡问题。实验结果表明,随着说话人规模的不断增加,所提方法识别准确率的衰减趋势更缓;不同目标说话人规模下,该方法平均识别准确率比采用GMM-SVM算法提高2.7%。
其他文献
论文在梳理大量国内外相关文献的基础上,运用政府能力理论和企业能力理论构建县级政府公共服务能力与其影响因素关系结构模型,以获得的江西、湖北二省18县调查数据对模型检验
导电油墨(导电银浆等)是以全印制电子技术制作印制电路板的关键材料。研究了以环氧树脂为连结剂、自制超细银粉为填料、聚乙二醇等材料为添加剂的复合导电银浆配方及制备方法
2002年,中国污水处理行业实施了市场化改革。改革是否促进了城市污水处理行业效率的提高?基于这一疑问,本文采用数据包络分析方法对2006—2014年中国30个省份(或直辖市)污水处理行
研究旨在探讨基层党政领导干部的人格特点与工作绩效之间的关系。中国人人格量表(QZPS)测量的人格的七个维度及其18个次级因素均与工作绩效的维度存在不同程度的相关,其中处
这是一个由锥子脸、BB霜、铅笔裤、瘦臀削肩,花样伪娘、无聊选秀、样板文章共同粉饰的肌无力时代。任由这些极致阴柔的角色物什主导风潮的走向,无疑是这个时代的悲哀。所幸,
人工神经网络是一门通过模仿生物神经网络的行为特征来研究信息处理过程的学科。它通过构造一种类似于大脑神经突触联接的结构,并依靠内部大量节点之间互连关系的调整,来进行分
羔羊传染性脓疱病又称“羊口疮”,是由传染性脓疱病毒所引起的绵羊和山羊的一种传染病。本病多发于羔羊,可引起动物的生长发育受阻,甚至死亡,给养殖业的发展带来重大威胁。本
在我国现代社会当中,教育工作越来越得到相关政府部门的重视,如何增强学生学习知识,理解知识的能力成为了当今社会的重点问题,而我国应试教育虽存在已久,但短时间内不可能完
WTO新一轮谈判的一个重要议题,就是要建立合理的规范,既解决贸易与环境间的矛盾,又不使贸易自由化受阻。绿色贸易已涉及到国际贸易的各个方面,也将是对一个国家综合经济实力
在软件开发过程中,随着软件开发的进展,代码的冗余已经成为不可忽视的现象,这严重地影响软件开发的进度,同时也会造成系统维护的困难,因此代码是否精简直接影响应用系统的可