基于Kaldi的说话人识别技术研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:jianghulong007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别SR(Speaker Recognition)又称声纹识别VR(Voiceprint Recognition),是一种根据语音信息对说话人身份(Identify)进行辨识的生物特征识别技术。语音中包含着非富多彩的信息,既有反映说话内容的共性信息,也有表征说话人个性特征的差异性信息,和语音识别关注共性信息不同,说话人识别则更多关注差异性信息,以此来鉴别说话人的身份。与面部识别等其他识别技术相比,说话人识别优势突出,它不仅操作便捷、成本较低,并且识别精度高,现已在金融、军事等多个行业得到了大力推广和积极应用,应用前景非常可观。本文综合考虑各种声学特征的特性、建模方法以及打分策略等问题,利用Kaldi语音识别工具和信号处理的相关理论和技术,结合不同声学特征和声学模型的优劣势,对待测语音数据进行评测。首先,利用特征提取和特征处理技术,将不同声学特征进行动态融合,互补不同声学特征的差异,减少噪声等杂糅信息对说话人特征的影响,形成新的输入特征。其次,利用深度学习和自然语言处理的相关理论和技术,将特征进行提纯,再次减少噪声等杂糅信息对说话人特征的影响。最后,利用说话人识别中打分策略技术,将特征流入i-vector、x-vector等说话人识别模型,并结合打分函数和激活函数,对待测语音数据进行评测,从而过滤与说话人无关的特征,识别与说话人相关的特征,分阶段实现说话人识别信息的检测。本文的主要研究内容如下:(1)利用基于多特征i-vector的说话人识别算法实现待测语音的第一阶段工作。首先,采用Kaldi语音识别工具在TIMIT语料库上采集不同的声学特征并将其构成一个高维特征向量。然后,通过主成分分析法PCA(Principal Components Analysis)有效地剔除高维特征向量的关联,确保各种特征之间正交化。最后,采用概率线性判别分析PLDA(Probabilistic Linear Discriminant Analysis)进行建模和打分,同时在一定程度上降低空间维度,并采用等错误率EER(Equal Error Ratio)来评价说话人识别系统的综合性能。(2)利用基于多特征和多任务学习的x-vector说话人识别算法实现待测语音的第二阶段工作。首先,采用Kaldi语音识别工具在Vox Celeb1语料库中采集具有互补性的不同尺度的声学特征,并将其同时输入到网络中。然后,在网络内部整合不同互补特征的特性,并将流进网络的特征在全连接的拼接层进行左右拼接。最后,结合注意力机制进行帧权重的计算和线性整流函数Re LU(Rectified Linear Unit)来降低梯度弥散,并采用EER和检测代价函数DCF(Detection Cost Function)来评价说话人识别系统的综合性能。(3)利用基于语谱图和多头注意力机制的说话人识别算法实现说话人识别的最后阶段检测。首先,采用Kaldi语音识别工具在Vox Celeb2语料库中采集语谱图、MFCC两种声学特征,并将二者相继送入TDNN和CNN。然后,设置不同结构的CNN,并利用CNN处理图片的优势对语谱图进行加工。最后,结合多头注意力机制对网络处理后的特征进行加权,并采用EER和DCF来评价说话人识别系统的综合性能。本论文在说话人识别TIMIT评测集验证了第一阶段所提算法的有效性,与单特征i-vector模型相比,EER最佳取得了90.0%的相对降低(8.33%降至0.833%),在区分性别差异的模型中,男性和女性的EER最佳分别取得了85.6%的相对降低(11.67%降至1.38%)和92.3%的相对降低(9.72%降至0.69%)。在说话人识别Vox Celeb1评测集验证了第二阶段所提算法的有效性,与x-vector基线模型相比,添加了注意力机制的统计层模型在EER上最佳取得了24.4%的相对降低(2.01%降至1.52%),在此基础上引入多任务学习并采用拼接层后,在EER上最佳取得了29.0%的相对降低(1.38%降至0.98%)。在说话人识别Vox Celeb2评测集验证了最后阶段所提算法的有效性,与x-vector基线模型相比,采用语谱图和CNN结合的方式在EER上最佳取得了6.69%的相对降低(6.58%降至6.14%),在此基础上引入多头注意力机制后,在EER上最佳取得了26.14%的相对降低(6.58%降至4.36%)。
其他文献
频谱资源需求的增加、频谱资源的匮乏以及频谱资源的低有效使用率,这些问题都迫切需要一种新的频谱接入策略来解决。认知无线电(Cognitive Radio,CR)中的认知用户可以机会地接入空闲信道,从而使频谱资源的利用率得到了提高。本文针对动态接入过程中的信道选择策略深入研究:通过对比分析已有的信道选择策略的特点,研究新的信道选择策略。具体内容如下:首先,针对认知无线电网络(Cognitive Rad
随着无线通信技术的快速升级,智能终端的普及、移动数据的急剧增长以及多样化业务的兴起,对终端设备电池容量、计算和存储资源提出更高的要求,传统的云计算模式无法满足计算密集型、时延敏感型应用的实时性要求。作为第五代通信网络(5G)的关键技术,移动边缘计算(MEC)通过将终端计算任务上传至邻近的边缘服务器,由边缘服务器进行计算,再将计算结果回传到终端。相对于云中心,大大减少时延,提高用户体验。虽然移动边缘
在传统金融系统中,需要一个可信任的中间机构处理网络上价值交易,这种传统机制存在各种问题。第一个问题是这种机制需要长的交易时间,另一个问题是这中机制会导致高额的交易费用。为了解决这些问题,2008年提出了去中心化区块链平台。区块链技术最重要的特性之一是能够在互不信任的各方之间进行通信,而无需依赖受信任的第三方实体,这种通信可以通过使用智能合约来实现。智能合约是运行在区块链上的图灵完备程序,但是智能合
随着云存储和网络通信技术的发展,海量图像数据开始在公网上进行传输,但多媒体数据的真实性和完整性很难得到保证。密文图像可逆数据隐藏兼具图像加密技术以及可逆数据隐藏技术的优点,极大地保护了多媒体数据的隐私安全。对于一些特殊应用情景,如在医疗、法律、军事等场景下,需要将秘密数据以不可察觉的方式隐藏在图像载体中进行传输,并且在接收端能够不分先后无损的恢复出载体图像和秘密数据。因此,需要结合图像加密技术和可
完整的高分辨率图像在文物保护、资讯传播、刑侦分析等方面均有重要应用,然而受成像成本、成像环境、传输带宽等限制及自然或人为因素的制约,容易导致图像空间信息受损和细节信息丢失。针对空间信息受损问题,可利用图像修复技术填充缺损内容;针对细节信息丢失问题,可借助超分辨率技术重建图像细节。生成对抗网络作为当前图像修复和超分辨率领域的主流手段,通过零和博弈方式,表现出很好的重建性能,备受广大研究人员关注。本文
过去,我国的经济发展、科学技术、医疗技术等方面处于落后的阶段,导致国内医院等公共卫生医疗场所长期处于十分传统的医疗卫生工作模式,一切工作都需要医护人员亲力亲为。医院频繁出现医患关系紧张、医护人员被感染疾病、工作效率低下、人力资源和物力资源浪费等现象。因此本文设计了一款可实时监测病人体温、心率和血氧饱和度三项生命体征信号的智能手环,开发了一款可注册账号与登录账号、实时接收智能手环生命体征信号的安卓手
铁路在现代综合运输体系一直处于骨干地位,是我国重要基础设施和大众出行的主要交通工具,也是促进国民经济和推动社会发展的重要产业部门。近几年,我国铁路迅猛发展,列车持续提速,列车密度不断加大,对铁路运输安全要求也日趋严格。铁路信号设备在确保列车运行安全,提高运输效率方面发挥重要作用,因此保证其正常运转显得尤为重要。在日常的维护维修中,维修人员主要靠人工经验,并且用文字的形式描述故障设备的处理流程,因此
短视频、互动游戏、直播等应用的快速发展,使得人们对高速率实时信号的数据传输要求越来越高。无线激光通信具有高带宽、难窃取与单一性等优点,适用于特殊环境的诸多优点,是未来高速通信的最具有前途的候选传输技术之一。随着激光器、调制器、探测器和解调器等器件研究和发展的不断深入,高速率和高带宽的无线激光通信系统的普及越来越成为可能。有希望为广大用户提供实时地、稳定地、高速的视频传输服务。本文对无线激光高清视频
伴随着5G时代的到来,无线通信已经成为我们日常生活中不可或缺的一部分。与微波通信相比,可见光通信(VLC)因其具有的带宽不受限、信息容量大、传输速率高、保密性好及部署灵活等优势,逐渐成为研究人员广泛关注的焦点。光空间调制(OSM)在采用传统信号域调制信息之外,还通过LED的索引号携带信息。由于OSM每符号周期仅1个LED携带信息,克服了传统光多输入多输出(OMIMO)系统中信道间干扰以及同步问题,
有机电致发光器件(Organic light-emitting diode,OLED)凭借其独特的自发光、低耗高效、色彩饱和度高等特点成为现如今最具发展潜力的显示与照明技术。尤其白色有机电致发光器件一直都是热门研究课题,高性能的成果不断得到突破。本文以传统蓝色荧光材料苝(perylene)作为蓝光发射体,基于薄层非掺杂的结构设计,制备了高效稳定的非掺杂蓝光和白光器件。本文在蓝光OLED的研究中,首