基于三元组损失与流形降维的文本无关说话人识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:quanxi111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,个人信息隐私安全受到了越来越多的关注,基于生物信息身份验证技术的应用越来越普遍。说话人识别作为一项核心的身份验证技术,被广泛应用于司法、门禁访问控制、智能移动终端唤醒等领域。与指纹识别、人脸识别、虹膜识别相比,说话人识别对输入设备要求更低,基于嵌入式的麦克风即可实现,因而应用到实际生活场景中的成本更低。同时说话人识别技术在国家安全防控领域也发挥着重要的作用,如基于电话语音的疑犯识别。基于I-VECTOR(Identification Vector)的说话人识别技术是目前说话人识别领域的主流方法之一。然而其模型训练步骤繁琐,且各阶段使用不同的目标函数来优化求解,使得各阶段产生的误差无法在下一阶段得到修正,同时I-VECTOR方法得到的超矢量维度较高,带来了较高的计算量。近年来,出现了基于三元组损失(Triplet Loss)的端到端神经网络方法,它使用唯一的目标函数来对说话人进行建模,避免了I-VECTOR各阶段独立优化的问题,得到的超矢量维度较低,能够显著降低计算量。此外,三元组损失的思想与说话人识别目标相契合,即拉近同类距离,推远异类距离。泛化端到端损失(Generalized End to End Loss,GE2E)为Google于2018年提出的用于文本相关说话人确认任务的方法,尽管它对类内距离进行了很好的约束,然而却无法有效利用训练数据,导致其训练效率要远远低于三元组损失的方法。为此,本文借鉴GE2E对类内距离约束的思想,研究基于引入类内距离约束的改进三元组损失的端到端说话人识别方法。由于真实条件下语音间差异较大,为降低说话人类内散度,本文采用基于流形学习的t分布的随机近邻嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)算法对神经网络得到的说话人特征嵌入进行信道补偿。考虑到真实条件下语音中的某些帧较为纯净,对说话人识别更有帮助,因而本文采用注意力加权池化(Attention Weighted Pooling)方法有效提升模型对于噪声的鲁棒性。本文所提出的基于三元组损失端到端特征嵌入与t-SNE信道补偿的说话人识别方法,在VoxCeleb1数据集上的识别性能与基线系统相比均有显著提升。
其他文献
跨栏跑教学在田径运动中具有技术环节比较复杂,难度较大的特点,要求一系列高重心、低波动、强节奏,跑跨结合的连贯动作在短时间、短距离内迅速完成,并且在教学过程中学生需要
蒸压粉煤灰砌块、蒸压加气混凝土砌块和普通混凝土小型砌块是应用广泛的填充墙体材料,这类砌块填充墙体很容易出现裂缝,是目前建筑工程质量主要质量通病之一。本文通过对这三
目的探讨护理敏感指标管理在住院患者跌倒中的应用。方法通过选取该院2017年7月—2018年6月全院上报的34例住院患者跌倒的不良事件为研究对象。通过比较护理敏感质量指标管理
采用自制纳米TiO2粉末,以磷酸铝为粘结剂,制备了负载型TiO2光催化剂。将Ag,Pt或Pd 3种金属的盐溶液滴涂在负载TiO2的表面,从而得到修饰型负载光催化剂(M/TiO2)。通过甲基橙溶液降解
喷泉在各项景观设计中的应用十分广泛,它为人们的生活增添了美感和乐趣,随着现代技术的不断发展喷泉在设计与安装上也出现了各种各样的形式与新的尝试。本文将针对喷泉的设计
社会网络分析为当代社会学研究提供了一个独具特色的关系性视角,从而为在操作层面上解决社会学中结构与能动的矛盾提供了机遇和办法,正是在这个意义上,以“关系”为核心的社会网
西安阎良谭家堡是关中现存最大的山东方言岛,其居民主要来自今山东高密、昌邑一带。本文重点描写谭家堡山东话语音的内部差异,其内部差异主要表现在年龄上。其中,老中派保留
目的考察《乳腺癌中医症状分级量化评价表》在中医护理方案临床应用中的信效度和反应度。方法对浙江中医药大学附属第一医院乳腺科112例乳腺癌患者进行调查,计算《乳腺癌中医
从转变观念 ,提高教职员工对系 (部 )级教学管理工作的认识 ,注重系 (部 )教学管理人员队伍建设和素质培养 ,系 (部 )教学管理工作的落实等方面论述了河北职业技术师范学院对
针对新手型化学教师教学效果不明显的问题,文章提出从"课前准备+课后反思"两个方面的策略进行改善,以期通过较短时间的自我训练和教学实践,能够快速提高新手型化学教师的教学效