说话人识别中不同语音编码影响的补偿方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:szhanyc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术因其自身独特的方便性、经济性、准确性和可扩展性等优点,在生物特征识别领域中具有广阔的应用前景。尽管在实验室环境下,说话人识别系统已经取得了比较令人满意的效果,但是现实中的各种外界因素使得系统性能明显下降。其中影响性能的主要原因之一是由于各种因素而导致的训练和测试时语音信号编码的不匹配问题。尤其是在进行网络下说话人识别时,所能获得的训练数据是采用某种语音(音频)编码方式下的信号,而在实际使用时,待测语音信号为其他编码方式的信号,这时的说话人识别就面临着训练和测试语音由于编码不同而产生的不匹配问题,这将影响说话人识别的性能。为了提高网络环境下的说话人识别性能,增强系统实用化程度,首先需要解决编码匹配问题,即消除训练语音和测试语音之间的编码不匹配对识别率的影响。本文主要研究有效克服不同语音编码影响的补偿方法,以提高网络环境下的说话人识别性能,主要是在特征域和得分域进行补偿。在编码特征补偿方面,将两种语音识别中的编码补偿方法,最大后验概率MAP(Maximum A Posterior)方法和最大似然估计ML(Maximum Likelihood)方法,应用到说话人识别系统当中。在得分补偿方面,引入信道补偿中的似然比得分补偿方法,进一步提高系统性能。在应用GMM(Gaussian Mixture Model)进行第一次识别的基础上,使用编码得分归一化,再进行二次判决,得到最终识别结果。所采用的基线系统为文本无关的说话人辨认系统。实验结果表明,首先应用MAP方法进行编码补偿,再利用似然比得分补偿进行二次判决,这样得到的开集测试的最好识别率为83.4%。
其他文献
随着FTP访问数量的激增和动态性能的提高,单个FTP服务器已不堪重负,服务运行的高效性和处理海量请求的伸缩性更是无从谈起,一般采用集群或分布式技术来解决这一问题,采用集群技术
随着本体在各个领域的广泛应用,不同本体之间的共享逐渐成为本体研究的一个重点,当前影响本体共享的一个瓶颈问题是本体异构,例如语义异构、结构异构等,而在众多解决异构本体共享
随着计算机网络技术特别是Internet的迅猛发展,网络中传输和存储的电子数据的机密性、完整性和鉴别问题已成为人们关注的一个重要课题。密码技术是是信息安全的核心技术,自Sh
本文研究了一种基于压缩传感的图像超分辨率重构方法。此方法在基于压缩传感的分块超分辨率重构方法的基础上,加入了自适应 TV法去噪和反投影迭代法(iterative back-projectio
随着互联网的不断发展,网络所承载的业务类型不断增加,并呈现复杂化趋势。在网络安全方面也由传统的基于网络层的控制方式转变为面向业务流的控制方式。网络承载业务类型的快
无线传感器网络应用中,QOS保证是一个关键问题。有效评估查询质量是查询优化的必要前提。大部分技术主要以能量有效性作为查询优化评价指标,导致用户的查询请求不能得到很好
随着多媒体技术和互联网技术的蓬勃发展,图像已成为日常生活中的一种重要信息载体。面对日益增长的大规模图像数据,用户很难在其中找到其真正需要的图像,从而各种各样的图像分类
主动网络是网络发展过程中出现的一门最新的技术,是下一代网络体系结构的理想解决方案。主动网络中传输的分组被称为主动分组,主动分组不仅带有数据信息和分组头部信息,而且
图像修复是图像复原研究中的一个重要内容,也是当前图像处理和计算机视觉领域中的一个研究热点。图像修复是对图像上信息缺损区域进行信息填充的过程,其目的是恢复有信息缺损
嵌入式系统在许多领域飞速发展,各种嵌入式产品已产生巨大的经济效益,引起了国内外研究的热潮。嵌入式微控制器是嵌入式系统的核心,8/16位微控制器在运行速度、寻址能力和功