语者识别鲁棒性技术的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:Ling_Hun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语者识别,又称说话人识别,作为一种生物认证技术,在身份认证,语音人机交互,网络信息安全,安保等领域有着广泛的应用。虽然在特定条件下,该技术已经达到很好的性能,但是实际应用中经常出现训练和测试语音由于采集环境、信道、编码方式等不匹配造成的语者识别性能下降的情况,这是阻碍语者识别技术发展的瓶颈之一。本文主要对采集的环境及编码方式不匹配情况下的鲁棒性技术进行研究。针对采集环境不匹配问题,主要的研究工作及创新点集中在以下几个方面:1、缺失数据技术是基于数据间存在冗余信息这一结论提出的一种提高环境不匹配时语者识别系统性能的方法,该技术在解决环境不匹配问题上效果显著,但是在低信噪比的情况下,被噪声破坏的数据所占的比例较大,而能够用于重构的观测数据较少,这种情况下对缺失数据的估计性能必然降低。本论文针对这一问题,结合重构的原理提出了基于子带的特征重构方法,通过对本文提出的聚合度水平进行计算,发现将全频带分为子带后,可以极大的提高频带相关性,而重构利用的即为数据间的相关性,因此有效的解决了全频带重构性能低的问题。通过随机去除不同比例的数据和加入不同信噪比的噪声两类情况下进行的识别实验,得到本文提出的重构方法对于解决环境不匹配问题效果更加突出,尤其在缺失数据所占比重较大的情况,比如低信噪比、不平稳噪声等。本方法是特征域的方法,对模型没有依赖性,可以集成于不同的识别系统中,应用非常广泛。2、特征弯折技术是一种特征规整技术,通过将特征映射到其他的域中来解决环境不匹配和信道不匹配等造成的识别性能下降的问题。决定该技术性能的关键是时域窗内特征的相对位置,即序位特征。通过理论分析和实验验证发现,不平稳噪声给频谱引入了非线性的加项,从而破坏了序位特征。本论文针对这一问题,基于序位特征的优势,提出了一种基于序位的特征增强方法,该方法在一定程度上消除了噪声的非线性干扰,很好的解决了特征弯折技术在不平稳噪声情况下性能低的问题。它不仅有效的解决了信道和采集环境不匹配造成的识别率下降的问题,而且有效避免了噪声的非线性干扰。实验表明,本文提出的方法有效的提高了开集语者识别系统在环境不匹配时的识别性能,做为一种特征域的方法,它可以应用于很多模型的语者识别系统中,应用范围较广。由于数字语音通信技术的广泛应用,为了满足存储和传输的需要,语音大多经过了压缩编码处理,但是低码率的压缩编码破坏了语音原有的特征结构及统计分布,进而降低了识别系统的性能。针对编码方式不匹配问题,主要的研究工作及创新点集中在以下几个方面:1、不同的编码方式带来的失真不同,导致在一种编码方式下训练的模型不能很好的描述另一种编码方式下语音的特征,由于身份认证矢量(Identity vector,I-vector)是在通用背景模型(Universal Background Model,UBM)上提取的,当训练和测试阶段的语音编码方式不匹配时,训练的UBM不能很好的描述测试语音,导致提取的I-vector不准确,针对这一问题,本文提出了一种基于模型失真的补偿方法,该方法首先通过特征的失真得到了模型的失真,然后利用测试语音对UBM进行了实时调整,使得训练模型的编码方式与测试语音的编码方式匹配,然后提取了更加鲁棒性的I-vector。本论文首先确定了编解码造成的特征失真对模型造成的影响,然后在估计失真分布的过程中对模型进行了补偿。通过实验结果表明本文提出的方法可以有效的降低编解码对识别性能的影响,而且本方法无需考虑测试语音的编码方式且计算量小。2、为解决训练和测试阶段的语音编码方式不匹配造成的识别性能下降的问题,在上述工作的基础上,本论文从编解码后的语音特征产生的角度出发,提出了一种基于结合模型的补偿方法。该方法首先建立了未编码语音特征和失真特征的结合模型,然后利用测试语音和结合模型对UBM进行了实时调整,使之对应的编码方式与测试语音的编码方式匹配程度更高,然后提取了更加鲁棒性的I-vector。通过对不同编码方式的测试语音进行语者识别实验,表明,本文提出的方法可以有效的解决编解码不匹配问题,尤其在编码速率较低情况下,本文提出的方法效果更加明显。另外,本方法对调整模型参数的语音数量要求不高,适合于语料不充分的识别系统,也可以实时处理。
其他文献
随着移动互联网与物联网的快速发展,以及新服务和新应用的不断出现,对未来无线通信网络提出了更高容量、更短时延和更高能效需求。为了满足这些需求,国内外学者提出了大规模天线输入输出、毫米波通信、超密度网络、非正交多址接入等新技术。按照编码域与功率域复用划分,主要包括编码域与功率域非正交多址接入。功率域非正交下行传输己被提交到第三代合作伙伴计划(The Third Generation Partnersh
干扰对齐理论框架是近年来信息与通信领域最具瞩目的研究成果之一。经典的干扰对齐模型基于多天线场景,并得到了广泛而深入的研究。不同于多天线互干扰网络下的信道矩阵为一般化的随机矩阵,频域多信道互干扰系统下的用户间信道矩阵都为对角阵,因此多天线干扰对齐系统模型下的基本结论不再适用于频域多信道系统。本文基于干扰对齐理论框架,针对频域多信道干扰对齐网络的场景下进行深入研究与探索,主要完成了以下的创新性成果:·
当今世界面临着日益严峻的能源与环境问题,信息通信产业的能耗也在逐年增加,绿色通信已成为未来网络发展的必然趋势。同时,随着宽带技术的成熟与智能设备的普及,多媒体业务日渐繁盛,成为网络流量急剧增长的最主要推手,而多播传输作为多媒体业务的主要承载技术,已成为无线通信网络必不可少的环节。因此,多播传输更需要考虑能耗问题,研究节能多播传输方法有助于提升多播业务传输容量和能量利用效率,具有重要意义。本文调研总
随着信息与通信技术(ICT,Information and Communication Technology)的飞速发展,无线网络在满足用户业务量爆炸式增长的同时,其消耗的能量也在急速增长。近年来绿色节能通信技术得到了广泛而深入的研究,高能效服务控制技术作为提高网络能量效率的重要手段,逐渐成为无线通信技术研究的重点。本论文针对下一代无线移动通信网络新需求,从用户行为的角度来探索解决业务随时间变化和
杜甫是唐代伟大的现实主义诗人,在中国文学史上的影响非常深远。他忠君爱国,心系苍生,创作了许多诗歌。他忧国忧民的情怀、沉郁顿挫的诗风不断影响着不同时代的读者。从小学到初中,再到高中学生们学过不少"杜诗",保守估计不少于20首(涵盖了不同时期、不同题材的作品)。可见,教材的编者意在传递一种价值观念:杜甫忧国忧民的情怀是中华民族宝贵的精神财富。今天,笔者就来解读一下《中国古代诗歌欣赏》中的《阁夜》
期刊
随着移动互联网的迅速发展,无线数据业务呈现爆炸式的增长,信息通信服务所产生的能量消耗越来越受到了社会的广泛关注。当前的第三代、第四代移动通信系统面临着频谱资源短缺,能量消耗过大及传输速率难以满足未来通信发展的需求。因此,如何利用有限的资源最大幅度地提高传输速率和降低能耗成为未来第五代移动通信系统(5th Generation Mobile Systems, 5G)必须考虑的问题。近年来,三维多输入
随着传感技术、无线通信及电子制造技术发展而出现的无线传感器网络,分布在周围环境中与环境交互,感知物理世界,以其低成本、高扩展性、灵活性、易部署得到日益广泛地应用。传感器网络的覆盖控制技术通过对网络中节点链路、工作状态、受限资源的调度实现了网络对部署区域的有效覆盖。然而,随着目前无线传感器网络应用的传输环境越来越复杂、节点越来越多、感知数据量越来越大、应用场景及需求越来越多样化,网络覆盖过程中出现的
近年来,随着无线通信技术的快速发展,各种新型无线网络不断涌现。网络信息安全正是这些新型无线网络大规模普及和应用的前提条件。传统解决网络信息安全的方法都是基于密钥加密,通过在网络协议栈的上层采用各种加密算法来保证数据的安全性。然而,在网络协议栈中的每一层加入安全机制已成为一种必然的发展趋势。物理层安全(Pysical Layer Security,PLS)技术通过利用无线信道衰落、时变的固有特征,采
随着移动互联网的发展,海量数据传输量与移动终端能耗问题对无线通信技术提出了更高的要求。移动数据接入带宽和终端在线时长已成为无线通信网络性能和移动用户满意度的主要衡量指标。干扰管理技术能够解决干扰受限的蜂窝网络中的同频干扰问题,提高移动数据传输速率;无线能量传输技术为能量受限的移动终端提供能量来源,提高了移动终端的在线能力。无线协作通信技术最初作为一种提升边缘用户传输速率的有效手段获得广泛关注。无线
当今社会已经进入了信息时代,光纤通信系统是信息社会中各种信息传送的主要工具。随着视频业务、云计算业务和移动宽带业务的快速发展,人们对带宽需求量越来越大,亟需提高光纤通信系统带宽和容量。光纤通信系统的带宽和容量主要受损耗、色散、非线性效应等相关因素的影响,这些问题可以通过调制编码技术、FEC技术、RAMAN放大技术等手段来解决。本论文在研究了光纤通信系统中的编码调制理论和实现方法基础之上,重点研究了