说话人识别系统的实验分析与改进

来源 :天津大学 | 被引量 : 0次 | 上传用户:lylingyunsnd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文旨在提高说话人识别系统的性能,实现并测试了多种系统方案,从输入特征、网络架构和模型扩展三个方面探讨提高说话人识别性能的可行性。(1)解决输入特征的有效性问题。说话人识别系统通常提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为输入特征,但MFCC会导致语音信息过度压缩。本文用最原始的声学参数——语谱(Spectrogram)特征代替MFCC,其包含了更多语音信号本身的信息。实验结果表明,基于语谱特征构建的x-vector系统可以取得比MFCC更好的识别效果;(2)解决深层说话人嵌入特征的区分性问题。本文通过优化ResNet的网络架构,构建SE-ResNet和RACNN,以获得更具区分性的说话人嵌入特征。图像识别领域的SE-ResNet可以更好地学习卷积特征各个通道之间的依赖关系,本文将其应用于说话人识别,取得了优于ResNet的识别效果。同时,改进了音频领域中以原始波形为输入特征的RACNN:以残差块代替卷积层、以LRe LU函数代替Re LU函数、在softmax损失上附加两个更有区分性的损失函数、去掉原始模型中的时延神经网络层,以更少的参数量实现了更好的识别性能;(3)解决深度神经网络的效率问题。单一维度扩展模型的深度、宽度或语音长度,识别精度都会很快达到饱和。本文将图像识别领域的EfficientNet应用于说话人识别,先设计一个基线模型,然后在保证基线模型参数不变的情况下,通过复合扩展模型的方法提高系统性能,同时保证识别效率。实验结果表明,复合扩展EfficientNet的识别性能优于单一维度扩展。
其他文献
互联网和多媒体技术的快速发展使得存储、传播和复制音频文件更加容易和便捷,但同时也带来了侵犯版权和音频信息被篡改等问题。音频水印技术是解决侵权行为和信息被篡改问题的有效技术手段。音频水印技术利用音频信号自身的冗余特性和人类听觉系统的掩蔽效应,在不影响音频信号感知质量的前提下,将水印图像嵌入到载体音频中,以达到对音频版权的保护和信息完整性鉴定的目的。音频水印算法中水印的嵌入位置和嵌入强度对水印算法的不
混沌系统因具有伪随机性、不确定性、不可预测和对控制参数与初始条件的极端敏感性等特点,比较适合用于图像数据信息的加密。在图像数据信息加密中引用混沌理论的良好特征,对于图像数据的保护能够起到非常重要的作用,具有较强的实际意义。本文提出了一种改进的Logistic混沌映射,并结合梯度分解、Arnold变换、剪切波变换、矢量合成和Gyrator光学变换,提出了两种图像加密新方法。本文的具体研究内容如下:(
随着科学技术与信息产业的迅速发展,全球的信息总量正在呈爆发式增长,现有的存储设备将难以满足现阶段信息存储的需求。DNA分子作为一种存储密度高、安全稳定的信息存储介质,有望满足未来信息存储的需求。DNA合成技术作为DNA信息存储的基础层技术,开展高保真高通量DNA合成技术及仪器的相关研究对于信息存储具有重要意义。传统亚磷酰胺DNA化学合成方法,错误率较高、易产生化学污染,而酶促DNA合成在合成精准度
光照是决定水下图像质量的关键因素,水下环境因为受到水质、水深、物体遮挡等因素的影响,光照会严重不足,使得获取的水下图像存在颜色失真、亮度和对比度低、清晰度差等问题,这些问题给水下图像的实际应用带来极大的困难。本文结合图像增强和深度学习理论,针对这些问题开展研究,主要工作如下:提出一种基于白平衡和相对全变分的低光照水下图像增强算法。根据光线在水中选择性衰减的特性,首先对水下图像进行全局光照补偿以提高
近年来,随着互联网带宽的增加和计算机处理能力的提高,多媒体数据,特别是视频数据在世界范围内呈增长趋势。拥有大量的视频数据还需要有效地存储、汇总、索引和检索这些数据的技术。近年来,由于体育视频的商业性,人们越来越重视对其进行总结、索引和检索的技术。本文提出了一个将板球视频分为四个项目之一的框架,即Bowled Out、captured Behind、Catch Out和LBW Out。该框架使用每个
大脑分割对于疾病诊断和治疗的脑结构评估是个关重技术。本研究对脑分割进行了大量的研究。然而,先前的研究并没有考虑从大脑图像的背景中分离出实际的脑像素。不进行这种分离可能造成以下的結果:(a)扭曲大脑分割模型,(b)增加建模性能的开销。在这篇论文中,我们使用三维全卷积神经网络来改善脑分割的性能模特儿们婴儿和成人数据集,以及多实例丢失方法,用于从背景中分离实际的大脑像素,并应用Gabor滤波器组和K均值
阻塞性睡眠呼吸暂停(OSA)是一种常见的睡眠障碍,是心血管疾病的危险因素之一。打鼾是阻塞性睡眠呼吸暂停综合征患者的典型症状。上气道阻塞和振动的位置,决定了打鼾和阻塞性睡眠呼吸暂停综合征的手术方案的选择。为了寻找一种能够替代药物诱导睡眠内窥镜检查(DISE)的非侵入式的方法,实现对打鼾时上气道阻塞和振动位置的准确定位,本文提出了一种基于特征融合的深度语谱特征的鼾声分类方法。本文使用的数据是Munic
藏语是藏族使用的主要交际工具,属汉藏语系藏缅语族,是藏缅语族中分布最广的语言,在国内外都有较为广泛的分布。在历史发展的过程中,由于各方面的原因,不同地区使用的藏语相比古藏语来说都产生了较为明显的变化,一些地区的藏语产生了音调,一些地区藏语的浊音开始清化,形成了不同地区的方言。我国藏语方言的划分普遍接受的是三大方言划分法:安多方言,卫藏方言(又称拉萨方言)和康方言。本文将致力于研究这三种方言之间关于
作为音乐识别与音乐信息记录与检索的基础组成部分,乐音信号的识别估计与乐音信号的记录检索越来越受到相关研究人员的关注,乐音的多样性决定了乐音信号识别的复杂性与困难性。为了解决乐音信号识别中的问题,本文对语音或乐音识别中的声音信号的分析方法进行了改进,主要做了如下工作:根据听觉场景分析等知识,结合信号处理、乐理以及音乐声学知识,提出了乐音信号听觉元素分离与重构的方法。该方法针对现阶段乐音识别中的信息量
图像超分辨率是从低分辨率图像恢复高分辨率图像的技术。在这个领域中,研究者通过使用不同技术提出了各种个样的方法。基于学习的方法一直致力于获得更好的表现,由于卷积神经网络在效率方面的显著性能,使计算机视觉的各个领域包括单幅图像超分辨率都发生了革命性的变化。相比于其它卷积神经网络,残差网络因其更深的结构和更高的精度,在近年来得到了广泛的应用。另一方面,很少有超分辨率方法试图通过融合不同先验知识,如邻域嵌