基于话者分类的多子系统输出融合的短电话语音话者确认研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lijx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电话(手机)语音的说话人确认具有广泛的应用前景,但是在实际应用中,往往面临着语音数据不充分,语义内容不能预先确定,电话(手机)类型繁多,使用环境复杂的问题。因此,目前在对短(10秒左右)电话语音条件下与文本无关的说话人确认问题的研究中,因为电话通道、环境噪声引起的训练、测试环境失配以及语音数据不充分等因素的制约,确认系统性能仍然有待提高。 本文对提高短电话语音条件下与文本无关的说话人确认系统性能的方法进行了研究。采用多种特征参数互补、多系统融合的方法,研究了基于话者分类的多系统输出评分融合的方法。 针对文本无关条件下的说话人确认问题,本文分析了基于UBM-MAP结构的GMM概率统计模型的优点以及模型训练算法,深入讨论了基于GMM结构的话者确认系统的结构、确认阈值的确认问题以及相应的评分规整策略。 本文分析、讨论了两类用于说话人确认的特征参数。本文首先讨论了两种基于短时分析的声道倒谱参数MFCC和LPCC,并且验证了它们的动态参数在说话人确认中的有效性和鲁棒性。与短时声道参数相比,激励源参数(比如基音周期和短时能量)具有更好的环境、电话通道噪声鲁棒性。本文对与文本无关的条件下,如何从基音周期和能量随时间变化的轨迹中提取出说话人相关信息进行研究,提取了超音段基音周期和能量参数,获得了比短时激励源参数更好的性能。 本文给出了一种采用多种特征分别建立话者确认子系统的后端融合方法。通过实验分析了子系统之间的互补关系,建立了一个所有说话人共享的输出评分融合网络,并且比较了多系统输出评分的融合方法。 为了进一步提高系统性能,本文提出了一种多个融合网络的策略,采用话者分类的方法,每个话者类共享一个融合网络。本文提出了三种话者模型的自动聚类算法,验证了采用多个融合网络的策略对提高说话人确认性能的有效性,比较、分析了几种算法的性能差异。 论文的研究工作得到了国家自然科学基金项目(No.60272039)、教育部一微软重点实验室开放基金项目(No.05071810)的支持。
其他文献
随着互联网的发展和微电子技术的进步,嵌入式产业正成为当前IT行业的经济增长点。同时,由于嵌入式技术的独特优势,在各个领域内都得到了广泛的应用。目前在视频监控领域,出现了一
本文主要研究了操作系统安全等级测评系统及其测试方法和实现。首先分析了操作系统安全等级测评的研究背景和意义及其在国内外的研究现状;在阐述安全操作系统有关概念及安全等
用自鉴定分离的短小芽孢杆菌(Bacillus pumilus)KX-33株为有效成分配制种衣剂,对8种感枯萎病棉花种子和2种抗枯萎病棉花种子包衣.将含不同浓度KX-33菌液种衣剂包衣的棉花种子
甾体药物生产过程中,微生物转化反应占有不可取代的地位,其中重要的反应有羟基化反应和C1,2位脱氢反应。产烟曲霉酸等甾型抗生素的真菌,例如烟曲霉和金龟子绿僵菌等,具有优良的甾体羟化和C1,2位脱氢能力。鉴于甾型抗生素与甾体药物在结构上具有相似性且在其甾核上具有C1,2位不饱和双键和多个羟基基团,因此在基因水平上分析烟曲霉酸等甾型抗生素的合成机理,有利于了解这些真菌在甾体药物转化方面的作用。本研究的目
本文以中国科学院海北高寒草甸生态系统定位站(海北站)附近的三种草甸类型(小嵩草草甸、金露梅灌丛、沼泽化湿地)及矮嵩草草甸施肥样地为实验平台,以定株标记的方法,调查了不
本文的目标是研制基于双斜率单积分型ADC(Dual ramp and single slopanalog to digital converter-DRSSADC)的红外焦平面读出电路实验芯片。 随着CMOS超大规模集成技术与
芯片的集成度提高和内部晶体管数量增大造成电源噪声容限越来越低,如果电源分配网络(Power Delivery Network, PDN)设计不当则会引起电源噪声过大造成芯片供电不稳定,从而导
草酸氧化酶(EC1.2.3.4,Oxalate oxidase,OxO)催化草酸氧化产生CO2和H2O2。生物信息学分析水稻中编码OxO的基因有4个,在3号染色体上串联排列,其编码框的相似性在90-98%,但启动
石油被誉为现代化工业发展的血液,近些年,随着我国经济的高速增长,石油在我国常规能源结构中所占的比重越来越大,中国石油需求的缺口也越来越大,石油已经威胁到了我国国家能源战略
西双版纳区地处热带北缘,是中国生物多样性和文化多样性非常丰富的地区。近30年来,随着经济社会的发展,特别是橡胶的大面积种植,生物多样性保护面临着巨大的挑战。生物多样性