I-VECTOR说话人识别中基于偏最小二乘的总变化空间估计方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bai1988ping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一项关键的多媒体数据分析技术,说话人识别被广泛地应用于事务访问控制、身份验证、执法、语音数据管理,以及音频监控等领域。其中,i-vector作为一项有效的说话人识别技术,其性能优于传统的说话人识别方法,因而在说话人识别领域受到了广泛的关注。I-vector说话人识别技术的核心环节为总变化空间的估计,然而目前的总变化空间的估计方法均为通过寻找特征向量之间的数据信息关系达来到特征提取的目的,却忽略了一个重要的先验知识——说话人的类别信息,而类别信息对于样本的分类与预测有着十分重要的意义,因此现有的总变化空间估计方法并不是最优的。为此,本文从类别信息入手,提出了一种基于偏最小二乘的总变化空间的估计方法。首先训练高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM),从而得到每位说话人GMM均值超向量;然后利用GMM均值超向量和类别信息估计总变化空间,并提取说话人i-vector;最后利用类内协方差规整(Within-Class Covariance Normalization,WCCN)进行信道补偿处理,并用余弦距离打分作为判决方法。实验结果表明,King-ASR-009数据库与NIST 2008数据库(任务short2-short3与任务8conv-short3)上的识别性能均有明显提升。由于偏最小二乘对类间相似点不敏感,而对异常点比较敏感,所以当训练样本中出现上述问题时,往往导致系统性能的下降。对此,本文提出了一种基于回归惩罚偏最小二乘的总变化空间估计方法,将训练语料一分为二,一部分用于训练初始总变化空间,另一部分用于回归惩罚。实验结果表明,King-ASR-009数据库上的说话人确认与辨认性能均有所提升。
其他文献
肺结节是肺癌早期的主要征象之一。基于CT图像的结节检测与良恶性判别已成为国际上的研究热点之一。对结节的边界进行准确的分割是要解决的关键问题。基于C-V几何活动轮廓模
高可用集群是高性能处理器、磁盘阵列通过高速网络连接起来的能够提高系统服务可用性的并行体系结构。由于其高性能、高可用以及可扩展性好等特点目前已成为并行处理领域发展
Web2.0的兴起,使人与网络的交互程度增大,尤其是社交网站的出现,把实际生活中的人际关系和行为映射到网络,带来了网络上的朋友和人脉。社会网络的发现、挖掘、以及基于社会网
云计算的飞速发展伴随着许多大型数据中心的建立。海量的数据中心会消耗巨大的电力能源,增加云计算的操作成本,并导致二氧化碳的排放量升高,对全球气候造成影响。随着云计算
近年来,随着计算机与通讯技术的迅猛发展,笔记本电脑、手机、PDA等异构设备已融入到人们日常的生活中。这些异构设备具有截然不同的软硬件环境(平台不同,屏幕大小也不相同)。
随着无人战斗机在军事领域上的应用越来越广泛,世界各国都在下大力气研制无人机,无人战斗机的出现也将改变未来的空战态势,成为决定战场的重要力量。在这其中,无人机的智能化
随着多媒体技术和网络技术的飞速发展和广泛应用,对数字多媒体产品的存储、处理和传输变得越来越方便和快捷,但同时也带来了数字版权的问题。采用传统的加密技术,对其进行保
P2P系统(Peer-to-Peer)已经成为Intemet中最重要的应用系统之一。然而,P2P系统所具有的开放、匿名等特性使得节点可以肆意传播非法内容,滥用网络资源,导致不可靠的服务质量及存
随着3G应用的普及,在接入速率和适应环境上与3G技术互为补充的无线局域网(WLAN)迅猛发展,成为新一代高速无线接入网络,在3G的补充技术方面脱颖而出。同时由于多媒体技术的发
随着网络技术的飞速发展以及信息化进程的迅速推进,数字媒体已成为成为当今社会一种重要信息媒介。互联网的便捷性和数字媒体复制的低成本,在促进数字产品的在现实中应用迅速