基于SOINN-GMM的说话人识别研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:lx19880614
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几十年中,高斯混合模型广泛且成功的被用于说话人识别的研究中。为了处理动态增长的数据集和GMM初始化问题,以及在少量训练数据下得到高效的学习结果,本文提出一种自适应增量学习方法,称为增量学习高斯混合模型。我们将这种基于自组织增量学习神经网络(Self Organization Incremental Learning Neural Network, SOINN)和高斯混合模型的方法运用于说话人识别中。SOINN能不仅够自适应的给出合理的初始聚类,还能给混合模型提供合适的混合度。在说话人识别系统中,首先由SOINN和期望最大化算法来进行初次训练,形成一个初始模型,然后通过增量学习不断地丰富和优化模型。实验的语料库为2006年的第一届语音分离挑战赛数据库。实验结果表明增量高斯混合模型在大多数情况下优于传统高斯混合模型。在系统结构方面,本文提出一个增量学习说话人识别系统,系统中包含四个模块,分别是特征提取模块,训练模块,识别模块和增量学习模块。在预处理中使用了VAD方法去掉语音段中的静音段,特征提取时使用改进的MFCC系数作为特征参数,在训练时使用SOINN(?)高斯混合模型作为模型方法。本文针对说话人模型的自适应性,可增量学习和鲁棒性做了以下几个方面的努力:(1)在特征提取阶段,为了使语音参数能更加精确地代表说话人的个性语音特征,我们使用了语音活性检测方法。将语音中的静音段去除掉,只留下纯语音段供系统学习和识别,提高语音特征的准确性,提供了能让系统能达到更高识别率的前提条件。在梅尔倒谱系数中使用了动态系数方法,从系数层面提供了一种抗噪方法。(2)在模型训练阶段,使用自组织增量学习神经网络代替K-means方法,给模型提供更好的适应性和准确性,克服了K-means方法需要预先确定模型混合度的缺点,从而让系统更具适应性和推广性。(3)在模型训练完成后,加入增量学习模块,提供一种自适应的增量学习方法,能很好的满足系统增量学习的要求,使系统能适应动态增长的数据集。
其他文献
随着Internet技术的飞速发展,以Web为中心的计算方式越来越普及。许多基于传统软件体系结构的既存系统需要升级为基于Web的系统,这种升级过程可以称为面向Web的再工程。 由
该文主要介绍了分形图形分布式并行生成平台的实现过程.简单介绍了该平台所生成分形图形的串性算法;而且Linux和PVM都是可以免费得到的成熟的软件,通过建立在Linux系统下的PV
智能计算机辅助教学(ICAI)是当今CAI应用发展的一个主流。人工智能、网络和多媒体技术的飞速发展为人们相互交流、共享资源提供了广阔的空间,不同模型的ICAI软件也随之应运而生
该文对网络安全模型、防火墙技术和入侵检测技术进行可行性分析,对其中的理论、原理和方法进行了深入分析与研究.采用国内外先进的网络设备构架合理的网络体系结构,并对智能
该文对圆弧型双曲拱坝的应力分析及施工工程计算和混凝土浇注的计算机模拟,作了若干理论与应用研究,其中包括:(1)拱坝基本条件及基本体型参数计算;(2)拱冠梁法应力分析及计算
数字电视管理系统的特点是需要管理和控制各种复杂信息以及与许多功能和接口各异的软硬件系统交互.该系统是一个典型的分布式系统,并且需要根据不同用户的要求做灵活配置和改
该文讲述了CTMiner中文文本挖掘系统.CTMiner系统主要用于对大规模中文文本集合进行主题层次结构的组织、管理和浏览,揭示大量无组织中文文本集合中固有的主题层次关系.该文
该文提出了柔性软件系统的概念,研究并实现了一个柔性报表系统.此柔性报表系统使得信息系统的报表输出更加灵活,满足用户多层次、多用途和个性化的需要,具有很好的应用前景.
摘 要ITU-T G.729建议是国际电信联盟于1996年提出的速率为8Kbps的语音压缩编码的标准。本文详细讨论了多路G.729a语音编解码器在一片DSP处理器TMS320C6202上实时实现的
网络编码是通信领域的一个研究热点,它可以提高网络可靠性和数据传输效率,主要应用于广播、多播和单播中。而把网络编码应用于无线传感器网络汇播机制的研究,目前还处于理论分析