利用矢量量化(VQ)和混合高斯模型(GMM)的说话人识别的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:cheayu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别始于20世纪30年代,从20世纪60年代开始日益成为当今的一个研究热点。说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中,使得说话人识别方面出现巨大发展。但它还远远没有成熟。本课题以语音信号的LPC倒谱系数,差值倒谱系数,基音周期和差值基音周期的混合特征参数作为识别的特征矢量集,运用矢量量化(VQ)技术实现与文本有关的说话人识别。在一个10人,1800个的语音库上进行了系统的识别实验,单音节语音的平均识别率达到了92%,双音节语音的平均识别率达到了96.67%,四音节语音的识别率达到了97.67%,说话人识别的实时识别率达到了90%以上,达到了较为满意的识别效果。在矢量量化中引入模糊聚类算法,实现了对硬聚类算法的有效扩展,提高了码本的量化精度。混合高斯模型(GMM)是最优的与文本无关说话人识别的模型,而环境与个性特征的变化是影响采用GMM识别率的重要因素。本文从帧似然概率的统计特性出发,提出了一种非线性变换方法——指数归一化变换。理论推导和实验结果表明,该变换能够提高识别率。本篇论文从常用语音特征参量的提取、基于矢量量化和混合高斯模型的说话人识别、识别方法的优化及系统实现与实验结果这几个方面讨论了说话人识别的应用技术,并对实验结果进行了讨论。
其他文献
期刊
期刊
期刊
本文从行业信息化发展的需求出发,以目前的通信技术为基础,提出了一种基于CDMA1X的无线数据终端DTU的设计与实现方案。基于CDMA1X的无线数据终端DTU,采用嵌入式开发的思想,选
本论文来源于“分布式、智能化虚拟训练系统”课题。该训练系统对三维仿真视景的真实性和实时性都有很高的要求。而传统的仿真引擎Vega,Vtree存在着效率低,缺乏灵活性等缺点,
随着网络技术的发展,电视台作为一个设备先进、管理复杂的工作单位,使用先进的技术对日常工作进行管理和统计,是十分有必要的。基于现有的网络系统,在专业的软件支持下,可以实现这
我国煤矿大多集中在中部及西北地区,这些地区由于气候干燥、水资源相对缺乏,导致出现沙尘暴的几率大,空气中的粉尘浓度高。尤其在露天储煤场周围,所产生的无组织粉尘污染具有面积
半导体制造技术的蓬勃发展,带动了集成电路的快速前进,为了满足由低频到高频的需求,出现了微波集成电路。随之而来的问题是,在保证电路尺寸、复杂度不变的情况下,使功率附加
H.264是ITU-T(国际电信联盟)在H.263++基础上制定的新的低码率视频编码标准。H.264由于采用了4×4的整型DCT运算,先进的帧内预测,先进熵编码CAVLc和CABAC,可选的基于1/4(1/8)象
期刊