论文部分内容阅读
说话人识别始于20世纪30年代,从20世纪60年代开始日益成为当今的一个研究热点。说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中,使得说话人识别方面出现巨大发展。但它还远远没有成熟。本课题以语音信号的LPC倒谱系数,差值倒谱系数,基音周期和差值基音周期的混合特征参数作为识别的特征矢量集,运用矢量量化(VQ)技术实现与文本有关的说话人识别。在一个10人,1800个的语音库上进行了系统的识别实验,单音节语音的平均识别率达到了92%,双音节语音的平均识别率达到了96.67%,四音节语音的识别率达到了97.67%,说话人识别的实时识别率达到了90%以上,达到了较为满意的识别效果。在矢量量化中引入模糊聚类算法,实现了对硬聚类算法的有效扩展,提高了码本的量化精度。混合高斯模型(GMM)是最优的与文本无关说话人识别的模型,而环境与个性特征的变化是影响采用GMM识别率的重要因素。本文从帧似然概率的统计特性出发,提出了一种非线性变换方法——指数归一化变换。理论推导和实验结果表明,该变换能够提高识别率。本篇论文从常用语音特征参量的提取、基于矢量量化和混合高斯模型的说话人识别、识别方法的优化及系统实现与实验结果这几个方面讨论了说话人识别的应用技术,并对实验结果进行了讨论。