基于核方法的说话人辨认模型研究

来源 :浙江工业大学 | 被引量 : 1次 | 上传用户:zou123456ting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术由于其独特的便利性、精确性和经济性,被认为是最自然的生物认证技术,在安全监控、司法鉴定、电子侦听、金融服务等方面都具有广泛的应用前景。当前,说话人识别系统开发已逐渐从理论研究转向实际应用,对其要求也随着应用环境的变更而越来越高,不仅期望具有极高的识别率,还要具有较高的实时性,此外,系统构建便捷性、模型扩展能力等都不容忽视。近十几年来,基于核函数的分类算法已成为模式识别领域的研究焦点,它有效克服了传统模式识别方法中局部极小和非完全统计分析的缺点,具有很强的非线性处理能力,而说话人识别系统中输入的语音特征参数正好是非线性的且局部特性复杂。因此,应用核分类模型于说话人识别时能够获得很好的效果。本文针对说话人识别中的辨认任务,以小样本语料库为应用对象,着重研究模型域的改进,提出具有各种优势的核分类方法。主要工作如下:1.深入分析当前主导的说话人识别模型GMM-UBM和SVM。产生性模型-高斯混合模型(GMM)一直作为说话人识别的基准技术,但其直接应用存在训练样本量需求过大的缺陷,而统一背景模型(UBM)可以削减目标说话人的输入数据,且效果更比单纯GMM优越。区分性模型-支持向量机(SVM)具有最大分类间隔、全局最优解、稀疏性能等优势,在小样本说话人识别应用中效果比GMM-UBM更佳。本文分别从原理、优缺点、融合策略、应用细节等几方面对两者作了细致地分析。通过说话人辨认实验表明,GMM-UBM模型的测试实时度稍逊,而两分类模型SVM的多元扩展能力较为薄弱。2.联合相关向量机与高斯混合模型进行说话人辨认。相关向量机(RVM)分类模型与SVM具有一致的判决公式,同样有很强的泛化能力,并且其稀疏性更好;此外,RVM使用概率输出克服了SVM二值结果的缺点,又无需进行繁琐的惩罚因子C计算。但是在与文本无关的话者辨别中,RVM模型构建过程却过于缓慢。本文将二元模型RVM引入说话人辨认领域,并采用快速训练算法进行基于帧的话者识别。为进一步提升模型构建速率,取GMM统计特征参数作为RVM的输入矢量,既能够有效地提炼话者个体性信息,解决大样本数据情形中的RVM训练问题,又结合了统计模型鲁棒性高和分辨模型辨别效果好的优点。实验结果表明,RVM与SVM模型扩展能力一致,识别率相仿,但测试实时性能明显优于SVM。3.提出多元核Logistic回归(MKLR)说话人辨认方法。虽然RVM与SVM都具有优秀的识别性能和测试实时度,但二元模型的本质使得两者都无法直接应用于说话人辨认。本文针对基于帧的与文本无关说话人辨认多分类目标和大训练样本的情况,将经典核Logistic回归(KLR)模型进行多元化变形,叠加L2惩罚因子,以提高模型泛化能力。把最优目标函数负对数Logistic公式对偶化,并利用序列最小优化算法进行模型训练,不仅保持了原KLR模型的强分辨能力,也加快了模型构建过程。实验结果表明,MKLR在辨认任务中无需进行繁复的多分类扩展,且识别率达到99.5%。4.提出概率稀疏型多元核Logistic说话人辨认方法(SMKLC)。MKLR的缺陷是测试速率低下,因此,本文对经典Logistic回归模型进行多元化扩展后,为参数叠加RVM中采用的稀疏性先验概率分布,在不引入新的先验信息性参数前提下使模型具有稀疏结果。模型训练采用自下向上贪婪算法,规避了大型矩阵逆操作,约简了训练过程计算量。说话人辨认实验结果表明,SMKLC在保持高识别性能的同时,其测试用时仅需0.0057秒/短语。5.提出保局部核Fisher鉴别说话人辨认方法(LWFDA)。结合核Fisher判别(KFD)方法与局部保持投影(LPP)两者的优势,将亲和因子引入KFD中的类内散度矩阵,保留KFD全局最优投影能力的同时,又凸现LPP的局部保持能力,对重叠(离群)样本与多态分簇样本都能实现有效的分类投影,并给出了快速求解算法,解决大样本训练时出现的内存溢出问题,以适应于说话人辨认。实验结果表明,LWFDA识别率与MKLR一致,测试用时较MKLR缩减了9.25%。6.提出增强型数据域描述说话人辨认方法(EDDD)。为适应开集的辨认任务,以支持向量域描述(SVDD)算法为基础,通过一种简易的形式引入数据间密度因子,使处于不同区域的数据对分类器的作用不再被同等对待,高密度区数据对分类支撑域的作用被强化,而低密区即呈零星分布的数据作用被削弱,结果使分类超球体自动靠近数据高密区而提高其识别性能。说话人辨认实验结果表明,EDDD模型的识别性能全面优于GMM。本文主要研究说话人辨认系统中的模型部分,提出或改进了各类基于核的分类方法,包括二元分类器、多元分类器、单类分类器、降维分类器等,它们各自都具有得天独厚的优势,能满足不同需求的说话人辨认系统。
其他文献
目的比较食管癌手术中采用分层缝合或全层内翻吻合法,术后胃食管吻合口瘘及狭窄的发生情况。方法722例被临床确诊的Ⅰ或Ⅱ(Ⅱa和Ⅱb)期食管癌患者,从2002年6月至2007年1月有235例
[摘 要:随着我国教学制度的不断改革,要求在教学过程中应该将学生的主体地位充分的体现出来,同时应该尊重每个学生之间存在的差异,从而才能实现全体学生的共同发展,同时也能为学生学习工作开展奠定良好的基础条件。在小学英语教学中,因为每个学生所表现出的英语能力以及英语学习兴趣等具有非常明显的差异,而英语教学是面向全体学生的,这就要求学生在不同层次上都应该保持一定的积极性,从而将自身特长充分的发挥出来。本文
为了降低通信系统的差错率,提高系统的可靠性,先进的信道编码技术是宽带无线通信和电力线通信系统中不可缺少的部分。LDPC码是目前世界上距离香农限最近的码字,在宽带无线通
凭借德国经济复苏的“天时”和位居欧陆中心的“地利”。汉诺威展览公司登上全球会展业冠军宝座,在资源优势弱化之后。对内提升服务品质。并与竞争对手合作进行国际拓展。成为
带进位反馈移位寄存器(简称FCSR)是一类可用于序列密码设计的非线性序列发生器.与传统的线性反馈移位寄存器相比, FCSR通过引入若干记忆寄存器实现了2-adic整数的进位加法,从
目前,以太无源光网络(EPON)由于对以太网的高兼容性、高带宽和良好的维护性,已成为最有前景的光纤宽带接入网技术,但在实际应用中,光纤到家庭还是存在成本相对较高,接入不灵
摘 要:在幼儿教学中,幼儿年龄小,对于游戏的兴趣大于学习兴趣,因此有效的教学活动开展应该重视引入游戏教学法,通过游戏教学方法发采用,幼儿能够学习到有效知识,实践表明,通过有效的游戏化教学设计,幼儿能够形成良好学习习惯,能够真正促进幼儿身心健康发展。  关键词:幼儿教学;游戏;作用  游戏渗透在幼儿园教学活动中,能够提升教学质量,这对于教师来说也是非常有效的教学模式。基于此,教师要充分理解游戏化教学
[摘 要:随着中国各方面的不断发展,新课程的推行让小学体育课堂变得更符合当代学生的身心发展。作为义务教育的重要组成部分,小学教育发挥着不可忽视的重要作用。经过不断革新的科学技术以及体育教学的课程实践,投掷项目对小学体育教育的影响不断提高,投掷项目不但能够强化学生的体魄,还能丰富小学教育的课堂内容,使得小学体育教育的教学理论得到深入拓展,也是当代学子提升田径水平的形式之一。  关键词:投掷项目;小学
首先计算在台风暴雨出现前24小时,25个探空站相应的24个物理量场,利用相关分析,筛选出能较好地反映暴雨天气系统的物理量场,并用动力相似法作出24小时台风暴雨落区预报。最后用动
目的 Castleman病(CD)是一种少见的具有不同临床表现及病理特征的淋巴组织增生性疾病。文中总结CD的临床病理特点,以提高对该病的认知。方法 回顾性分析南京大学附属金陵医院201