论文部分内容阅读
本论文对说话人识别算法进行了研究,主要对基于Mel倒谱系数的矢量量化方法以及说话人确认阈值的估计算法进行了深入的探讨;并在此研究的基础上,从集合的角度研究了开集说话人识别系统,提出了一种基于DTSV的开集说话人识别算法,同时利用DSP对该算法进行实现。设计和构建了基于DSP的说话人实时识别系统,实现了说话人的实时识别,该系统已经初步应用到楼宇单元门语音控制锁中。近年来,在生物识别技术领域中,声纹识别技术,即说话人识别技术,以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。人的声音中包含了各种信息,说话人识别是从说话人发出的语音信号中自动提取说话人信息,并对说话人进行识别的研究领域。说话人识别是一类特殊的语音识别,它并不在意语音信号中的语义内容,而只强调各个说话人之间的特征差异,希望从语音信号中提取说话人的个性特征。说话人识别是语音信号处理的一个分支,涉及到语音学、语音信号处理、模式识别与人工智能等学科,是跨学科的综合性应用研究领域。在军事、法律、银行等许多方面有重要的应用前景,近十几年来得到了迅速的发展。在信息领域,数字化是当今信息处理的主流。数字化的核心技术之一的数字信号处理技术(Digital signal process)----DSP技术已成为人们日益关注的并迅速发展的前沿技术,它已经成为一个新的技术领域和独立的学科体系,有着广阔的应用领域和市场,担负着数字化产业革命的重任。理所当然,DSP(digital signal processor数字信号处理器)是这场数字化革命的核心。可见,对说话人识别算法的研究以及算法的DSP有着重要的理论价值与应用前景。本文的主要工作及其内容安排归纳如下:全文共分六章。第一章回顾了生物识别技术、说话人识别以及数字信号处理器DSP的 <WP=92>发展与现状,提出本文的研究内容及主要工作。第二章介绍了语音信号处理的基础知识,说话人识别的基本原理以及主要方法,同时概括地介绍了利用DSP进行算法实现的软件基础。第三章对说话人辨认的方法进行了研究,主要介绍了基于Mel倒谱系数的矢量量化说话人识别算法。基于矢量量化的说话人识别,无需考虑复杂的统计模型和复杂的时间归整问题,其运算过程也较为简单,同时对于少量训练数据而言,采用矢量量化的说话人识别算法可以得到较好的识别结果。因此矢量量化在说话人识别领域有着广泛的应用。Mel倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)利用了听觉系统的临界带效应,描述了人耳对频率感知的非线性特性。利用Mel倒谱系数作为说话人的特征矢量,对整个算法进行了仿真实验,得到较好的识别结果。第四章对说话人确认中的阈值问题进行了研究,主要研究了基于频度统计法、失真范围法以及DTSV方法的阈值估计算法,并进行系统的仿真实验。同时对于基于先验阈值的估计算法,提出了一种阈值的在线更新方法,使其更适应于实际的应用。为了要将算法进行DSP实现,分析比较5种阈值估计的方法的可实现性,为算法的DSP实现打下了基础。第五章从集合的角度研究了开集的说话人识别系统,提出了一种基于DTSV的开集说话人识别算法,同时利用数字信号处理器DSP对该算法进行实现,并初步应用到楼宇语音单元门控制锁中。在算法的实现过程中,分别采用语音信号的LPC系数和Mel倒谱系数作为说话人的特征参数,给出了各部分程序的调试结果,对程序的有效性进行了验证。同时分析比较了选用不同参数,系统实现的部分指标。第六章对全文进行总结,指出今后的工作和待研究的方向。本文的主要贡献在于:(1) 搜集并整理了大量关于语音信号处理与说话人识别技术的资料与文献,并深入学习了数字信号处理器DSP的相关知识。(2) 在学习基础知识的同时,对基于Mel倒谱系数的VQ说话人识别算法进行了深入的研究,并对整个算法进行了系统的仿真。在实验的过程当中得到了许多有价值的实验结论和经验,为说话人识别算法的DSP实现打下了良好的基础。 <WP=93>(3) 对说话人确认的阈值估计算法进行了研究,比较了各种算法对系统识别率的影响。通过对各种算法的分析比较,找到一种可靠、有效又易于DSP实现的阈值估计算法。同时对于基于先验阈值的估计算法,提出了一种阈值的在线更新方法,使其更适应于实际的应用。 (4) 从集合的角度研究了开集说话人识别系统,提出了一种基于DTSV的开集说话人识别算法,同时利用DSP对该算法进行实现,并初步应用到楼宇单元门语音控制锁中。本文对以下几个在说话人识别算法以及算法的DSP实现中的待解决问题有一定的启发性作用:如何从集合的角度对开集的说话人识别系统进行研究,从而提高开集说话人识别系统的识别率。(2) 如何选择更可靠、更易于实现说话人识别算法,使其更有利于DSP的实现。