加权成对约束度量学习算法在说话人识别中的应用

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:ivyqbw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术是一种通过对目标说话人的语音进行处理与分析,从而判断出该说话人身份的技术。目前,说话人识别作为人与计算机进行交互的一种智能接口有着非常广泛的用途,它具有方便快捷、经济可靠和扩展性好等许多优点,已经被广泛用于远程身份验证,同时在军事和医学领域,尤其是基于电信网络的身份识别应用,说话人识别技术的前景同样非常广阔。如何有效地对说话人语音进行相似度判别,是目前说话人识别研究领域非常重要的关键问题之一。模式识别领域中,样本间相似度的衡量方法有很多,其中常用的方法有距离打分法,如余弦距离打分(cosine distance scoring)和马氏距离打分(Mahalanobis distance scoring)等。目前最流行的基于i-vector模型的说话人识别系统常用余弦距离来衡量说话人语音间的相似度,余弦距离打分法根据样本向量间的夹角来判断样本间的相似度,难以衡量样本在量上的区别。马氏距离打分法根据投影在能真实反映样本相似性的样本空间中的新样本向量间的欧氏距离,来衡量样本间的相似度。用于投影到样本空间的映射矩阵称为度量矩阵,它可用于描述样本空间的相似性。不同的度量矩阵描述的样本空间也不同,只有得到正确的度量矩阵,通过其计算出来的马氏距离才能真实的反映样本间的相似性。度量学习根据训练样本含有的信息,通过自动学习得到一个距离度量矩阵,常用于计算目标样本间的马氏距离,从而对未知数据的相似度进行预测。本文主要工作和创新如下:(1)本文对Cao等提出的子空间相似性度量学习(Subspace Similarity Metric Learning,SUB-SML)算法中的子算法(Subspace Metric Learning,SUB-ML)进行改进,根据相似训练样本对与非相似训练样本对在度量学习训练过程的影响程度进行加权约束,提出加权成对约束度量学习(Weighted Pairwise constraint Metric Learning,WPCML)算法。该算法利用成对训练样本的约束信息训练一个用于描述样本空间相似度的度量矩阵,用来计算i-vector语音样本间的马氏距离。该算法的原理非常直观,而且简单有效,目标函数的最优化求解能得到全局最优解,并能迅速求得满足设定条件的度量矩阵,而用于训练的样本对只需知道其是否属于同类。美国国家标准技术局(NIST)说话人评测(SRE)2008年数据集上的实验结果表明,WPCML算法训练度量矩阵用于马氏距离相似度打分的分类性能优于余弦距离相似度打分。(2)训练样本对集的构造是度量学习研究中的一个重要问题。合适的训练样本对含有的有效信息更能正确指导训练过程。大部分度量学习算法采用随机构造的方法来构造度量学习训练样本对集。本文对训练样本对集的构造方法进行研究,提出选择训练样本对法构建度量矩阵训练样本对集。选择训练样本对方法用于度量学习训练样本集的构造能进一步提高系统实验性能,并优于目前最流行的PLDA分类器。
其他文献
由于系统体系和呈现行为这两种概念及其理论和应用促进了大型软件系统和互联网应用的发展,所以在国际上得到计算机软件领域的普遍重视。随着技术的进步和各领域对系统要求的不
无线网络中,在一个节点向多个节点传递同样的数据包时,往往采用多播(Multicasting)的方式逐一将数据包传递给接收节点。由于无线链路的可靠性具有时变的特性,在一个节点发送
随着数据云存储概念的诞生以及因特网的普及导致的信息流加速,各种行业正在形成庞大的、复杂的、异构的数据环境。在这些庞杂的数据环境中,有一些公共数据库在生物学,天文学
随着网络和信息技术的发展,电子邮件已经成为人们沟通交流的重要工具。但是垃圾邮件的泛滥却给人们的工作和生活带来了极大的困扰。尤其从2005年开始,垃圾邮件制造者将垃圾信
传统的大型数据文件一般是存放在磁盘或光盘等二级存储介质上,应用程序必须将数据从硬盘或光盘调入内存后才能计算处理。一个适合的内存调度算法能够有效避免硬盘颠簸现象的
P2P网络突破了传统C/S或B/S这样不对称的计算模式,每个节点地位对等,可同时成为服务的使用者和提供者,这为大规模的信息共享、直接通信和协同工作提供了灵活的、可扩展的计算
随着科学技术的进步,视频监控系统正逐步朝着数字化、网络化、智能化的趋势发展。而达芬奇(DaVinci)技术的出现加速了这一进程的发展。达芬奇技术包括高性能的处理器、高度集
随着数据库系统在全球范围的广泛应用,分布式数据库系统的地位也越来越高。分布式事务的提交一直是分布式数据库研究的主要内容。其中的二阶段提交协议,由于其简单有效的特性
在机器学习领域中,标记实例是个代价很高且耗时的工作。作为机器学习领域的重要研究方向之一,主动学习旨在根据选择策略从无标记实例中选择信息量最大的部分实例交由专家标记
H.264又被称为MPEG-4-Part10,是2002年由国际电信联盟组织ITU-T的视频编码专家组(VCEG)和国际标准化组织ISO/IEC的活动图像专家组(MPEG)联合制定的视频编码新标准。它在继承