说话人语音特征提取及说话人识别研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:hxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音中蕴含着丰富的说话人特征信息。说话人识别就是从语音中提取出这些个性特征并使用一定的识别方法识别出语音的说话人。随着信息技术尤其是语音通信技术的发展,说话人识别在金融证券、人机对话、司法鉴定、军事安全等领域显示出了极大的应用价值和广泛的应用前景。作为语音信号处理和生物特征识别技术中的一个重要研究方向,说话人识别技术经过近半个多世纪的发展,虽然有了很大进展,但是由于语音信号本身以及实际应用环境的复杂性,使得说话人识别系统离真正的实际应用还有很大距离。针对说话人识别中的难点,目前的研究热点主要集中在说话人语音特征参数的提取与组合处理、说话人概率模型的改进、以及带噪语音的说话人识别等方面。 针对上述研究热点,本文从抗噪性MFCC特征参数提取、共振峰轨迹的准确提取、语音非对称包络提取、文本无关说话人识别模型、文本有关说话人识别模型等方面对说话人识别技术进行了较为深入的研究。具体研究内容和成果如下: 1.总结了说话人识别研究的现状和发展。综述了说话人识别的基本理论和关键技术。 2.总结了特征差分和特征均值规整抗加性噪声的一般原理。从简化的含噪语音模型出发,提出一种基于频谱均值归整(SMN)的抗噪性MFCC参数提取方法。实验表明SMN能较好地抑制加性噪声.进一步的理论分析表明,联合使用SMN与CMN能同时有效抑制加性噪声和卷积噪声。 3.详细研究了说话人概率模型GMM及其训练方法。在特征序列“双独立”假设条件下,基于单维特征概率密度估计提出一种参数更加灵活的SGMMs模型,在引入非参数概率密度估计的基础上,对SGMMs模型的3种训练方法(“EM+FIR滤波”、“EM+FIR滤波+高斯元拟合”、“高斯核密度估计+高斯元拟合”)进行了实验研究。实验结果表明,利用非参数概率密度估计方法可以有效降低模型中的高斯元数,从而大幅度提高系统的识别速度。此外,还进一步研究了概率模型的增量训练问题,提出一种基于高斯元聚类融合的SGMMs模型自适应增量训练方法。进一步实验表明了SGMMs模型及其各种训练方法的有效性。 4.在详细研究无损声管模型的基础上,提出一种基于共振峰增强的语音共振峰轨迹提取算法。实验表明,该算法在5kHz内提取语音前五个共振峰的性能都很好。与传统LPC方法相比,该算法提高了检测各阶共振峰频率的准确性和可靠性,而且算法同样简便,实时性能良好。目前该算法已经申请国家专利。 5.通过仔细观察可以发现,大多数汉语音节的包络并不对称,而是呈非对称的,并且在发相同音节时,这种包络的非对称性还因人而异。为此,本文提出一种新的语音特征—语音非对称包络,并给出一种基于复小波分析(CAWT)的语音非对称包络提取算法。进一步的实验表明,语音非对称包络也是一种有效的说话人特征,用它与MFCC组成的混合特征可以提高说话人识别的性能. 6.研究了文本有关说话人识别的常用方法,提出一种基于矩阵正态分布(MND)的文本有关说话人识别方法,该方法提取识别单元的归一化特征矩阵作为说话人特征。在小人群说话人识别实验中,采用基频和前4个共振峰组成的混合特征验证了MND的有效性。另外,鉴于文本有关说话人的高效性和文本无关说话人识别的普适性,本文还提出一种基于MND和GMM融合的说话人识别系统框架。该识别框架对本文今后的研究工作有一定的指导意义。 语音特征和识别模型是说话人识别技术实用化的关键和难点。因此,本文在说话人语音特征和说话人识别模型方面获得的研究成果对今后说话人识别系统的实用化具有重要意义。其中,基于共振峰增强的共振峰轨迹提取算法和语音非对称包络不仅可以用于说话人识别,而且在语音信号处理的其它领域也有较高的应用价值。
其他文献
地震反演技术在油气勘探开发中有着举足轻重的地位。大部分的地球物理反问题属于多极值的目标函数优化,而将现有的非线性反演理论方法应用于地震反演,是一个尚未解决好的难题。
随着计算机网络技术的发展,Internet已经在全世界范围普及,广大的中小机构、企业也构建了自己的局域办公网,从而大幅度的提升了工作效率,而且对计算机网络的依赖性也越来越强
XML(eXtensible Markup Language)是继HTML之后发展起来的一个重要的Internet技术,它的格式简单,自我描述能力强,实现了内容、结构和表现三者的分离,适合于数据的表示和交换,已成
系留气球作为一种升空平台,在军事和民用方面都具有广泛的应用前景。其具有机动灵活、操作简单、使用方便的特点,适合搭载通信、侦察、干扰等电子设备。这种高空平台也可用来
本文将混合专家网络应用于这个领域,利用其特点分别在模型组合和模型选择领域进行了一些探索性的研究。主要工作如下: 1.介绍混合专家网络的思想,描述其特点。并针对软件失效
XML路由技术是一种实现于网络应用层的基于内容过滤的技术,其核心是XMI潞由算法.通过XML查询语言构造合适的过滤引擎,XML路由算法可以匹配持续到来的XML文件信息流.由于当前XML信
随着二维GIS技术的不断成熟和完善,研究热点逐渐过渡到二维GIS以及其他的相关技术。目前国内外已经有不少3DGIS软件,但这些三维软件只能表达一些简单的三维现象,而对于三维模型
SAP R/3 系统不但是一个成功的业务系统,而且还能根据存放在SAP R/3系统中的宝贵的业务数据提供高级的决策支持。随着 SAP R/3系统在众多企业中的广泛成功的应用,管理者将SAP应
随着计算机和互联网技术的迅速发展和成熟,越来越多的企业开始进入了互联网商业模式的时代。通过部署互联网商业解决方案,能够全方位的为企业降低成本、提高客户满意度、改善业
手绘草图以其方便,自然的表达方式,日益成为人机交互领域中的一个研究热点,但是其存在表示形式复杂,数据量大等问题。手绘草图参数化能够极大的减少手绘草图的数据量,使得手绘草图