多信道条件下的说话人认证

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:Zerolzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动说话人识别(Automatic SpeakerRecognition,简称ASR)又称为声纹识别,是语音信号处理中的重要组成部分,也是作为一种重要的生物信息而被广泛研究的热点之一。说话人识别是指通过一个说话人的语音而识别出说话人身份的过程,根据最终完成任务的不同,说话人识别又分为说话人确认(Speaker Verification)和说话人辨识(Speaker Identification)两种。由于在实际的说话人识别应用场景会引入多种不同的录音设备以及传输设备,使得说话人识别系统的鲁棒性不够高,严重影响了它的实用价值。这个问题,在说话人识别领域又成为多信道问题,是相关研究人员的工作重点。本课题将详细论述文本无关条件下说话人识别技术的基本原理以及研究现状,在详细论述和设计说话人识别技术中主流的GMM-UBM系统建模方法和系统的同时,本文也将阐述说话人识别领域中最新的基于支持向量机(Support Vector Machine)的建模原理以及系统设计。针对上面提到的说话人识别系统中严重影响系统性能的信道不匹配现象,本文将从特征域,模型域以及得分域对信道补偿技术进行详细的论述,并对其中的一些技术提出自己的想法和改进意见。本课题在剑桥大学开发的源码HTK语音识别工具的基础上构建说话人识别确认系统,本系统对比了在特征域、模型域等多种不同技术的系统性能,并最终采用了PLP感知线性预测静态及动态参数、RASTA滤波、特征映射、特征变换、自适应模型、得分归一化等技术使系统达到了优良的性能,达到了本领域中公布的系统性能中的前列。本课题研究主要针对电话信道下的说话人识别确认系统,但本课题所涉及的许多技术及思想对于其他条件下的说话人确认系统、说话人辨认系统、乃至语音识别系统都有参考、借鉴及应用价值。
其他文献
移动Ad Hoc网络(MANET)是由一系列带有无线收发装置的移动主机节点组成的多跳、没有固定基站和中心节点的临时性自治网络系统。它具有组网快捷、灵活,且不受有线网络约束的特点,
射频识别技术(Radio Frequency Identification,RFID)是20世纪以来发展最具活力的研究领域之一,利用射频信号达到零接触信息传递目的,并通过所传递的信息完成物品的识别。但
建筑装饰的种类和数量随着社会的不断进步和科学技术的不断发展而越来越多,也越来越受到人们的喜欢.而创新,特别是建筑装饰构造的创新,是建筑装饰行业不断发展的推动力.然而,
在离散天线系统(Distributed Antenna Systerm,DAS)上行链路中,由于对接收信号采样数有限,使得其采样协方差矩阵也是有限的。另外,由于通信环境的复杂性,无法准确地获得各条
在建筑装饰工程中,对工程设计与质量的控制是整个施工过程的重中之重.对质量进行有效的控制,能够直接降低返工、维修等费用,从而降低整个工程的成本,又能赢得强而有效的竟争
无线Mesh网络(Wireless Mesh Network,简称WMN)是一种新型的宽带无线网络结构,即一种高容量、高速率的分布式无线网络,它是多跳技术(如移动Ad hoc网络技术)与传统的无线技术(
近年来,生活水平的提高,人的寿命的延长,导致人口老龄化日趋明显,从而使骨质疏松症(Osteoporosis,OP)患者日益增多并引起了全社会的关注,骨质疏松症的诊断和治疗也相应地成为
HINOC网络(High performance Network Over Coax)是在当前FTTB已经存在和普遍应用的情况下,利用有线电视网已有的同轴电缆线路和现有网络,组建最后100米范围内的宽带接入网。
PCM即脉冲编码调制技术是应用最早和最广泛的语音编码技术。目前,采用非线性量化编码64Kbit/s的A律和μ律PCM被广泛地应用于各种通信系统。1988年ITU提出了G.726ADPCMi(自适
在信息技术高速发展的今天,图像作为最直观的信息载体之一,已成为数据传输的主流形式。随着人们对图像质量的要求不断提高,对数据的需求量越来越大,传统图像压缩与传输技术已