轻量级鲁棒声纹识别模型研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:heyun102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前大多数声纹识别技术使用复杂度较高的网络模型,以达到更准确的识别精度。模型复杂度过高不适用于存储空间和计算资源不足的设备,例如手机、手环等。相比于高复杂度的模型,轻量级神经网络模型无论在存储空间,还是计算资源方面的需求都低得多。近年,基于深度可分离卷积的轻量级神经网络模型表现出了卓越的性能,将其中较为优秀的模型应用到声纹识别任务上发现,这些模型在性能和轻量化上无法达到很好的平衡。此外,日常生活中移动终端设备的使用多数情况下伴随着噪声干扰,这会影响模型的识别精度。为了解决以上问题,本文基于深度可分离卷积设计了轻量级神经网络OSNet,并将变分信息瓶颈引入到声纹识别模型中,提升声纹识别模型的鲁棒性。本文主要围绕轻量级神经网络的设计和鲁棒声纹特征的提取展开研究,主要工作包括以下两个方面:(1)针对高复杂度的声纹识别模型无法应用于移动终端设备的问题,提出了适用于声纹识别任务的轻量级神经网络。本文从模型性能、模型复杂度和运行速度三个角度出发,基于深度可分离卷积设计了轻量级神经网络模型OSNet,来解决声纹识别任务,并在Vox Celeb1语音数据集上验证了模型的有效性。实验结果表明,相比于基于Res Net34的模型,基于OSNet的模型在损失了0.12%识别精度的情况下,其模型大小、参数量和计算量分别降低了9倍、14倍和12倍,运行速度提高了2~3倍。与相近计算量的Mobile Net V2和Shuffle Net V2等轻量级模型相比,OSNet模型虽然比表现最优的Mobile Net V2损失了0.05%的精度,但对存储空间的需求小了4MB,参数量减少了50%,并且运行速度最快。(2)针对真实生活场景的复杂环境对模型的干扰问题,利用变分信息瓶颈方法提高说话人声纹特征的鲁棒性。本文首先从理论角度分析了信息瓶颈与模型鲁棒性的关系。使用变分推断法得到信息瓶颈的变分近似表示,称为变分信息瓶颈。之后将变分信息瓶颈引入到声纹识别模型中,促使模型学习一个良好的压缩表示。该压缩表示不仅要包含足够多用于预测目标变量的信息,还要忽略输入变量中和目标变量无关的细节,即压缩表示对噪声是不敏感的。实验结果表明,相比于未引入变分信息瓶颈的模型,引入了变分信息瓶颈的Res Net34和OSNet模型在惩罚强度为0.01时,EER值分别降低了15%和17%。在惩罚强度为0.001时,基于Mobile Net V2的模型EER值降低了12%。
其他文献
随着智能设备存储和传输能力的提升,移动边缘计算网络中距离较近的用户可通过设备-设备连接共享视频内容。然而考虑到提供视频协作服务的中继传输节点个体利益,基于移动边缘计算的视频协作传输系统仍面临许多潜在的问题。首先是中继传输节点存在隐私数据泄露的风险,其次是移动特性导致视频服务质量难以量化,最后是用户间社会属性影响D2D通信链路的建立。因此有必要针对上述问题设计合适的激励机制,促进能够提供高质量视频服
学位
得力于深度学习技术,现阶段语音合成过程已得到极大地简化,合成语音的自然度也得到了极大地提高。但在中文语音合成领域中仍存在着一些难点和特色:(1)当使用音素作为输入时,中文语音合成模型需要前端处理网络将中文文本转化为音素,并且现阶段缺少开源的<文本,拼音>数据集进行模型训练;(2)中文语音合成模型存在训练时间较长、合成质量有待提高的问题;(3)语音克隆模型存在合成语音相似度不高的问题。本文围绕中文语
学位
随着卷积神经网络(CNN)技术的不断发展,为完成更复杂的特征提取任务、获得更高的识别精度,CNN的层次越来越深,计算量与参数量也越来越大,这使CNN算法对所部署设备的计算资源、内存资源以及能量资源有越来越高的需求。然而,在许多现实应用中,需要广泛地将CNN技术应用到计算资源、内存资源以及能量资源受限的移动嵌入式设备中,而且这些设备往往有着实时性、低功耗的要求。因此,对CNN的计算速度、计算能效以及
学位
内河运输是交通运输的重要组成部分,随着在航船舶数量的不断增长,各种水上交通事故数量也随之增加。船舶自动识别系统AIS通过内置的GPS或北斗定位模块向周边广播船舶自身的位置及其他信息,实现船舶的导航与避碰。但由于播发周期较长及信道共享抢占而产生的丢包问题,无法满足桥区港区等重要水域实时监管的要求。在重点监管水域,通常由AIS与雷达共同组成船舶交通服务系统VTS,以满足实时监管的要求。然而,现有VTS
学位
智能设备的日益普及,机器学习的不断发展以及网络数据的指数级增长给无线通信网络数据的收集、传输与处理带来了如下挑战:机器学习技术的发展离不开巨量数据的驱动,然而随着互联网用户对于数据隐私和信息安全重视程度的不断提高,无线网络中持有数据的分布式客户端节点出于对隐私泄露的担忧,向服务器传输数据的频率逐渐降低甚至拒绝传输数据,这导致大多数行业的数据逐渐呈现孤岛现象。由此,可有效保护分布式数据隐私的联邦学习
学位
智能交通系统(Intelligent Transportation System,ITS)的快速发展和急剧增长的车辆应用对车辆通信网络系统提出了重大挑战。为了在道路上建立稳定的车辆网络,基于节点地理位置分布的车辆雾计算(Vehicular Fog Computing,VFC)网络受到了广泛的关注。通过建立车辆雾计算网络,可以将云计算服务扩展到处于网络边缘的道路上,为车辆提供低时延高可靠的各类服务。
学位
本文利用文献研究分析中小企业数字化转型现状,发现数字化转型过程中面临的困境涉及资金来源、技术基础、组织架构、战略柔性等诸多方面,利用TOE框架分析影响中小企业数字化转型的因素,发现中小企业完成数字化战略转型涉及到多种因素,企业转型过程中应注重各方面协调配合,统筹推进企业转型。本文丰富了针对中小企业实施数字化转型的一些相关研究,以期为推动中小企业开展数字化转型减轻现实困难,提供方法指导。
期刊
生物网络是用图模型来抽象表示生物复杂系统的一种复杂网络。比如,蛋白质相互作用网络、基因共表达网络、信号传递网络和生物代谢网络等都属于生物网络范畴。在后基因组时代,面向复杂生物网络的功能模块识别算法研究是一项十分重要的研究方向,有助于人们在生命起源、新型药物开发、疾病机理研究等众多领域有更进一步的理解和认识。随着高通量技术的发展,生物组学数据量急剧提升,如何在如此大量的网络数据中识别具有生物意义的功
学位
数字经济与企业创新是新常态下经济发展的重要议题。企业传统的创新模式过于单一,无法支撑企业跨越式发展。作为市场主体,企业不仅要通过双元创新(即探索式创新与利用式创新)确保自己的竞争优势,实现可持续发展。同时,也要顺应数字经济的变化趋势,完成当下的数字化转型。本文通过梳理传统创新模式及现有的双元创新局限性,以资源基础理论为基础,通过数字化转型手段,协调企业双元创新的内外部环境资源分配,以期通过企业创新
期刊
随着大数据时代的发展,作为一种能在保证客户端私有数据不出本地的前提下实现协作学习的机器学习技术,联邦学习(Federated Learning,FL)受到越来越多的关注。凭借其无需客户端上传原始数据就可以实现分布式处理数据任务的优点,联邦学习有望在未来的网络通信系统中发挥出重要的作用。但是,联邦学习这种独特的优势却使得服务器很难预估客户端对全局模型的贡献,从而难以有效地以一种公平的方式激励客户端参
学位