基于深度学习的说话人提取和确认

来源 :南昌大学 | 被引量 : 0次 | 上传用户:pgqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生活中,目标说话人的语音会被其他说话人的语音干扰。利用干扰后的说话人语音进行说话人确认时,说话人确认系统的性能会大幅下降。因此,多说话人语音的说话人确认工作包括两部分:对目标说话人语音进行提取和对提取出来的语音进行说话人身份的确认。本文主要研究基于深度学习的多说话人语音的说话人提取和确认方法,主要研究工作如下:(1)提出一种基于深度学习的注册说话人模型的说话人确认方法。该方法分别为每个注册说话人训练一个注册说话人模型。首先构建身份特征提取网络,再利用该网络从每个注册说话人的参考语音中提取深度嵌入信息,并取每个注册说话人的所有深度嵌入信息的平均值作为该说话人的深度特征标签。注册说话人网络由数个注册说话人模型组成,然后根据深度特征标签从注册说话人网络中选择相应的注册说话人模型,使用该模型从混合语音中提取目标说话人的语音。最后,将提取出的语音输入到说话人确认网络验证它是否属于目标说话人。实验结果表明,基于深度学习的注册说话人模型的说话人确认方法是有效的。(2)提出一种基于注意力机制的注册说话人模型的说话人确认方法。本方法是对上一种方法的改进,利用注意力机制对目标说话人的深度特征标签和混合语音进行处理,使说话人模型增加对混合语音中重要语音帧的关注,降低对无用语音帧的关注,从而更有效地学习目标说话人的信息。使用该方法先提取出目标说话人的语音,再利用提取出的语音实现说话人确认。实验结果表明,基于注意力机制的注册说话人模型的说话人确认方法是有效的。
其他文献
多个自主导航机器人协作探索地图,是在未知环境中高效率执行危险且繁杂任务的基础。单个机器人传感器探测范围、通信连接、电源功率等都受到限制。在大尺度、复杂未知环境中。装备摄像机、激光雷达等多种探测传感器的机器人群体通过共享信息,高效协作完成探测二维和三维地图或模型面。协作可以缩短搜索时间,同时在提高模型完整性和准确性方面也具备很大的潜力。面向传感器和通信连接受限的机器人群体,下一步最佳视点规划和传感器
学位
无人机因其轻巧灵敏和安全可靠等优势,在室外获得了广泛的应用,如航拍摄影、农田灌溉、电力巡检等等。相比室外,无人机在室内的应用受到极大限制,究其原因不外乎所依赖的卫星导航系统在室内信号受限。针对无人机在室内应用受限问题,仅依靠自身搭载的传感器来完成在室内或未知环境下的飞行探索已经成为一个研究热点。基于上述背景,本文以四旋翼无人机为平台,结合双目视觉传感器并融合惯性测量单元,搭载机载计算机和激光雷达,
学位
光子计数单像素成像将光子计数技术和基于压缩感知的单像素成像结合,具有高灵敏、低成本的优势,在光学遥感成像、光谱成像、生物医学成像等领域有重要的应用。传统的重建算法存在采样时间和重建时间长的问题,近年来将深度学习用于压缩感知重建取得了重大的突破。基于深度学习的压缩采样和重建网络,将去除偏置和激活函数的全连接层作为测量矩阵,避免了传统迭代算法的带来的巨大计算量,从而实现了更快更高质量的图像重建。但利用
学位
作为量子密码学的一个重要研究方向,量子密钥分配旨在实现合法通信参与者之间安全地共享密钥。量子密钥分配协议一般要求所有通信参与者都具备量子能力,而且协议所涉及的多数量子设备都比较昂贵。Boyer等开创性地提出了适用于量子方和经典方之间的半量子密钥分配协议。为了避免半量子密钥分配协议中攻击者Eve冒充合法参与者Alice或Bob,需要对通信参与者进行身份认证。基于Cluster态和类GHZ态等纠缠态,
学位
作为测试系统参数,验证成像算法性能和分析干扰噪声的重要手段,SAR的回波仿真对SAR技术的研究有着至关重要的作用。针对SAR回波模拟方法设计,本文首先对SAR成像方法展开了分析。SAR回波模拟方法主要分为时域方法和频域方法。频域算法基于快速傅里叶变换的逆向处理,能够通过较低的运算量获得良好的分辨率性能。然而,频域方法通常需要满足方位向不变假设,因此频域方法的应用将受到平台构型的限制,无法适用于任意
学位
探地雷达(Ground penetrating radar,GPR)是利用天线发射和接收高频电磁波来探测介质内部物质特性和分布规律的一种地球物理方法,在工程勘察领域的应用日益广泛。在探地雷达反演中,信号中的强杂波严重影响了反演过程中地底目标成像的精度,并且传统反演方法大多数采用非线性迭代优化算法求解,面临着求解时间久、计算复杂度高和参数设置冗杂等问题。本文将以低秩稀疏分解理论为基础的杂波抑制与成像
学位
基于结构光条纹投影的成像系统因其无接触、高效率和高精度等优点,被广泛地运用于三维测量等计算成像领域。而结构光系统的非线性失真和光学畸变等因素降低了结构光三维测量的精度。本研究在结构光成像系统非线性模型的基础上,分析了各系统参数对展开相位估计精度的影响;提出了一种针对结构光三维测量系统空间几何畸变和光强非线性失真问题的预矫正方法;设计了一种实现结构光系统复合标定的快速方法。针对几何畸变和光强失真,建
学位
作为一门交叉学科,导航定位技术在地球科学、信息学科、智慧城市、物联网生活以及自动驾驶等方面发挥着越来越重要的作用。对于愈来愈复杂的现实场景以及定位需求,单一导航系统受自身的局限性影响,难以满足这些要求,组合导航随即成为导航定位研究的重点。组合导航将多种导航方法进行结合,通过组合手段抵消单一导航系统的不足,以此提高导航定位的精度以及性能。组合导航中的目标状态估计问题大多都是非线性滤波问题,常见的非线
学位
得益于无人机的低成本和灵活移动性,无人机已经被应用于各类复杂通信场景。传统的无人机通信轨迹规划都是将问题进行人工数学建模后进行优化求解,常假设信道模型为简单的视距链路(Lo S)或者概率Lo S,获得关于无人机位置的函数表达式后,再用凸优化技术进行路径规划。由于信道的时变性和无人机的移动性,传统的建模和描述过于简单,获得的轨迹无法指导无人机的实际应用。深度强化学习是一种在复杂的动态环境中进行最优决
学位
虚拟手术仿真系统可以对低年资医生进行临床手术培训,也可以针对病理进行术前手术预演,因此具有重要的研究价值。针对肾脏模型表面存在的黑空洞区域问题,论文提出了基于点云密度的修补方法,使得模型更加完整。后续针对传统球冠映射方法运用于不规则模型表面出现纹理映射模糊和重叠问题,提出基于区域划分球冠映射算法改善了模型表面的纹理效果。针对传统切割方法存在狭长状的切口问题,论文利用三阶贝塞尔曲线对不同切割情况的手
学位