基于MFCC和GMM的说话人识别系统研究

被引量 : 68次 | 上传用户:facekr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别作为生物认证技术的一种,是根据应用语音波形中反映说话人生理和行为特征语音参数,自动鉴别说话人身份的一种技术。与其它生物识别技术相比,说话人识别具有更为简便,经济及可扩展性良好等众多优势,可广泛应用于电话银行,数据库访问,计算机远程登录,安全验证,控制等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中。在众多的说话人识别技术中,本文主要研究了基于Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficients,简称MFCC)和高斯混合模型(Gaussian Mixture Model,简称为GMM)的说话人识别系统。 人的声道响应是反映说话人个性特征的重要的物理量。而语音信号中声道响应是和声门激励信息卷积在一起的。为了从语音信号中得到声道响应就必须对语音信号实现解卷积。本文介绍了对语音信号实现解卷积求取倒谱系数的两种方法:线性预测分析和同态分析处理。通过对语音信号进行解卷,从而获得与声道响应有关的倒谱系数,组成特征向量。 现实生活中人耳是一个比较好的说话人识别系统,而人耳对声音频率的感知却不是线性的。本文通过对人耳听觉的生理和心理特性的分析介绍,提出了利用音调特性来进行倒谱特征提取的方案,即用MEL频率对短时功率谱做频率弯折处理。在这种新的倒谱提取过程中,用符合临界带分布的等效滤波器组来模拟人耳听觉的非线性特性,从而得到了Mel频率倒谱系数(MFCC)。文中详细介绍了提取MFCC倒谱系数的理论基础和实现方案,并与传统的线性预测技术作了比较,实验结果表明这种改进后的倒谱特征提取方法比较有效。 说话人识别中有许多先进有效的识别技术,其中高斯混合模型(GMM)由于性能较好、复杂度小、方法简单,是目前最好的说话人识别算法之一。本文介绍了GMM模型的概念、模型参数的估计以及GMM的识别算法,并通过实验研究分析了GMM模型的阶数对识别性能的影响。 另外,本文还介绍了倒谱系数的动态特征,从MFCC对时间的一阶导数得到了反映倒谱动态特性的ΔMFCC。通过实验验证了动态特征(ΔMFCC)中的确含有有用的说话人个性信息。在原来MFCC倒谱系数的基础上加入ΔMFCC构成更高维的特征向量,并通过实验验证了这种组合特征对提高系统识别性能的有效性。
其他文献
城市轨道交通网络化运营是进一步提高轨道交通服务质量的必经之路,其基础是设备层面的互联互通,在各系统设备中又以其中信号系统为关键技术点。通过重庆开展的4号线、5号线、
毛泽东作为毕生关注文化事业的伟大政治家,对中国文化的发展产生了深远影响。毛泽东的文化建设的理论与实践深刻改变了中国文化的走向,为中国文化的现代化开辟了道路。 毛泽
本文从健康传播学的角度,对电视医药广告的传播现状及其所包含的健康信息进行分析,初步提出运用电视医药广告进行健康传播的观点,并就如何实现电视医药广告的健康传播作用和
实绩考核是公务员考核制度的重点、难点,是人事行政的重要环节,是发现、选拔优秀行政管理人才的重要途径。本文针对公务员实绩考核这理论和实践的重大课题,通过对黄梅县乡镇
水是生命的基础,城市的命脉。大连市是淡水资源紧缺的城市之一,随着城市化建设的发展,用水矛盾突出。 论文在调查了大量的国内外文献的基础上,对大连市1905-2001年的年、
长沙市是国务院首批公布的历史文化名城和第一批对外开放的旅游城市,提高它的城市文化品位对其发展具有战略意义。本课题研究了长沙市体育文化发展的特点及存在的问题,以引起
从野战卫生装备生成卫勤保障能力的需求出发,阐述并分析了当前基层部队卫生装备训管用等方面存在的实际问题,提出了构建卫生装备训练基地、创新卫生装备组训模式、改革训练内
一、背景2019年国家电网公司“两会”做出全面推进“三型两网”建设,加快打造具有全球竞争力的世界一流能源互联网企业的战略部署,是网络强国战略的具体实践,是落实中央部署
直线电动机直接驱动运动设备,省略了机械转换机构,完全消除机械传动元件的速度和加速度的物理极限,具有长行程、低惯量、高精度、快响应和高速度等特征,是先进加工中心的标志
结合住宅小区工程实际,提出未来智能小区设计的一整套解决方案,介绍智能小区由物业管理系统、安全防范系统和信息网络系统组成,对每个系统进行设计,从而为住户提供一个安全、