与文本无关的说话人识别技术研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:leeo_1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别又被称为声纹识别,是指从人声中提取身份信息从而实现对人的身份判别。与实验室的理想条件相比,实际应用场景中的说话人识别问题在于跨信道的识别结果较差,且实际应用中,为方便采集音频,用于训练声纹模型的样本量较小。因此,为了将说话人识别应用于智能家居场景下对多设备音频采集、训练及测试的工程应用中,需要重点研究在样本量较小的情况下的说话人识别问题。首先,本文建立了适用于小样本多设备情况下的说话人识别的数据库。说话人识别数据库人数为31人,每人录音时长为10分钟,其中朗读部分约为8分钟,该部分作为训练集,自由发言部分约为2分钟,该部分组成测试集。本文使用多个设备进行数据采集,针对不同的设备选择合适的参数进行预处理步骤,针对每个设备,使用对应设备采集的音频进行说话人模型建立与识别。当训练设备与测试设备不一致时,识别准确率下降严重。因此对于待测音频,在进行设备识别后,使用对应设备训练的说话人模型进行识别,从而提高由多个录音设备形成的说话人识别平台的说话人识别准确率。其次,以梅尔倒谱频率系数及高斯混合模型-背景通用模型作为说话人识别算法的基线模型,并在自建数据库上进行实验。本文设计并实现了针对常用的说话人识别模型的三类改进方案,针对常用的说话人识别的基线模型,分别提高了2%、4.94%及9.14%。第一类改进方式为通过对常用音频特征及说话人识别模型组合进行选择,可得到针对每类设备的最优特征及模型组合,最终将识别率提高了2%。第二类改进方式为通过基于高斯混合模型-背景通用模型的八类数据增强方式改进基线模型,并针对不同的设备选择最优的数据增强方式。结果证明,相对于基线系统,改进系统的识别率可获得4.94%的提升。第三类改进方式为使用增强经验模式分解算法对原始音频信号进行分解后,提取多类特征并进行组合,设计多通道残差网络后进行多分类说话人识别,并针对不同的设备选择最优的特征组合方式。结果证明,相对于基线系统,改进系统的识别率获得9.14%的提升。综上所述,本文通过多种方式对基于智能家居系统的小样本说话人识别系统进行改进,使得说话人识别效果获得了显著的提升。
其他文献
我厂一行四人,应邀于1988年8月对瑞典、芬兰、西德等五家铁合金厂(均为铬铁专业厂)进行了考察。这次考察访问,看到了铬铁生产方面的先进技术及设备,看到了国外的工厂管理,这
在中国,全球传播不是一个新兴的领域;但是,全球传播今天的战略地位令人刮目相看。本文力求通过对社会主义全球传播的再认识,呼吁人们关注全球传播、促进全球传播、运用全球传播,以
解决农村生态环境污染问题是加快河南生态省建设步伐,确保全省农村全面迈入小康社会的必然要求。从五个方面对当前河南省农村污染的现状进行分析,研究造成环境污染背后的原因
日前,河北省消费者协会针对美团网推出的“团购无忧”消费者保障计划中的“消费不满意,美团就免单”条款发出公开质询,如果商家提供的产品或服务与其承诺严重不符,美团网承担违约
文章介绍了银质双帆船的修复过程,重点讨论了金属线在修复过程中的选择和应用。
课堂教学是数学教学最主要的实施方式,课堂教学是一种具有组织性、计划性、目的性、深度性的学习活动,是师生之间、生生之间相互学习探讨、共同促进成长的一方天地。故而课堂
根据建筑声学理论各知识点的重要性和相关性,利用可变混响时间空间的特点,将多个基础性、验 证性、设计性实验有机地揉和成了一个综合性实验,用于加强建筑声学实验教学与理论
内波是南海北部海域常见的一种海洋现象,它对海洋资源的开发、国家海洋安全的维护以及海洋环境的变化都有巨大的影响,而长期、定点、连续、准确的监测海洋环境要素是进行内波
功能失调性子宫出血(简称功血)是指由于调节生殖的神经内分泌机制失常引起的异常子宫出血,而全身及内外生殖器官无器质性病变,属于中医"崩漏"范畴. 1999年1月-2002年12月,笔
隐匿性乙型肝炎病毒感染(OBI)是 HBV感染的一种特殊形式,指血清HBsAg阴性,肝脏组织 HBV DNA阳性,伴或不伴血清HBV DNA阳性的 HBV感染。国内报道OBI在献血者及健康人群中的发生率为