基于多模态生成对抗网络和三元组损失的说话人识别

来源 :电子与信息学报 | 被引量 : 8次 | 上传用户:fairytalezoey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离。最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份。实验结果表明,该方法能有效地提升说话人识别准确率。
其他文献
经济社会,将智慧与技艺变现至关重要,毕竟生存的全部意义不只有苟活,还要活得精彩,活得坦荡,活得值得追忆。普通人的生活质量很大程度依赖于经济实力,而对经济实力的过度追求
随着社会的不断发展,农村幼儿园留守儿童的教育问题也逐步出现在人们的视野当中,成为了当下社会和国家所关注的热点问题。作为时代发展下的弱势群体之一,留守儿童所面临的生
随着永州市房地产的不断发展,给永州市经济发展不断注入了活力,房地产开发企业存在的种种问题也逐渐暴露出来了,主要表现为规模小,资质低,资金较少,法律意识淡薄,核心竞争力较弱等,针
随着人类生活环境破坏日益严重,人们逐步认识到了生态环境的重要性,长期以来,那种资源无限、环境无价的观念也得到摒弃,越来越多的人开始注重身边的生态环境和生态服务能力。
针对现有超像素分割方法无法自动确定合适的超像素数目,以及难以有效贴合图像目标边界等问题,该文提出一种新的利用局部信息进行多层级简单线性迭代聚类的图像超像素分割方法。首先,运用基于局部信息的简单线性迭代聚类(LI-SLIC)对原始图像进行超像素初分割,然后,根据超像素的色彩标准差对其进行自适应多层级迭代分割,直至每个超像素块的色彩标准差小于预设阈值,最后,利用相邻超像素间的色彩差异对过分割的超像素进
生物是充满神奇色彩的学科,生物使我们的生活充满了欢欣和喜悦。生物课程是初一阶段开设的学科,对刚涉及生物领域的初中学生,如何激发学生对生物课的学习兴趣,是教师开展生物
介绍了GB/T 17799.1和GB 17799.3新老版本的主要变化,包括:增加测试端口和测试限值、测量不确定度和标准符合性等,解读适用于居住、商业和轻工业环境中的产品的试验配置、工
呼盟在学习黑龙江省木兰县利用圆拱结构解决冻胀问题先进经验基础上,修建了12座浅基薄壁圆型桥闸跌水联合建筑物,辅以其他防冻措施,经2~3年冻融循环考验,没有发现任何破坏,证
从教育的角度看,3-6岁的幼儿对个人与集体的意识不强,对于"我的"和"别人的"概念不够深化.孩子心中没有"偷"的概念,所以,老师与家长千万不能把孩子拿了别人的东西定义为"偷",
周恩来总理非常喜欢阅读小说。早在少年时代,他就浏览了《三国演义》、《水浒》等中国古典名著。他曾说:“读小说和办公用的不足一个脑子;办公办累了,看看闲书也是休息。”