基于深度学习的人声画像研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:A467329555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文的研究目标是利用一段简短的说话人语音从中生成与说话人真实面孔相似的人脸图像。为了解决该跨模态学习任务,本论文设计了一个端到端的深度神经网络以自监督的方式学习从语音到人脸的抽象映射,论文将模型分为两个部分,在第一部分中通过语音特征提取网络从说话人的语音频谱中提取低维的人脸特征,在第二部分中通过人脸特征解码网络将人脸特征还原为人脸RGB像素图像。由于说话人视频形式的数据自带有说话人语音以及对应的人脸图像两种模态,可以作为人声画像模型的输入与对应训练标签,论文以自监督的方式从视频中学习语音到人脸的抽象映射。论文在此基础上提出了一种新的映射策略,在映射中加入了先验信息,让深度神经网络学习说话人与先验人脸特征之间的差异,降低了网络的学习难度,提高人声画像模型的效果。论文在实验中使用了大规模的AVSpeech外国人视频数据集[1]作为训练集与测试集进行模型的训练测试,并将实验推广到特定人群的数据集上,在小规模的中国人视频数据集上也进行了训练测试。论文在实验中联合定性与定量评价标准,对实验结果进行了评估,结果表明论文提出的人声画像模型能够从语音中生成与说话者的真实面部相似的人脸图像。
其他文献
机器学习和数据挖掘中多数数据类标签的缺失,使得聚类任务成为学习过程中的关键任务。聚类的最终目的是揭示数据的隐藏特性,因此对于聚类任务,得到合理的样本关系对的表示至关重要。而对于维度较高的数据的聚类任务,由于其数据密度低,较难从中得到有用的信息。目前常用的解决方法是无监督特征选择和子空间聚类。无监督学习任务中由于数据无类标签,无法直观得到样本关系,此时可通过构建图模型来表示,以挖掘数据信息,构建学习
真实世界中事物是复杂多样的,单一语义无法描述事物蕴含的丰富信息。为了描述事物丰富的语义信息,多标记学习应运而生并广泛应用在多种领域,例如文本分类、场景分析等。多标记分类学习的任务是学习一个模型,该模型为未知实例预测出一组相关标记。标记之间存在某种联系使得多标记学习难度高于多分类学习。为了使模型具有更高准确性和泛化能力,本文从标记独立和标记关联增强两方面对多标记分类展开研究,主要研究工作如下:(1)
稀疏学习由于其简约特性和计算优势而获得了越来越多的关注。稀疏学习问题等价于最优子集选择问题,这是一个NP完全问题。已有的稀疏学习方法大多基于启发式的规则或正则项近似,但这些方法缺乏相应的理论保证,并且难以有效地在精度和稀疏度之间进行权衡。松弛和取舍技术是一种广泛应用的算法设计技术,已被验证了在NP难问题的近似算法设计上极为有效。本文将松弛和取舍技术扩展到稀疏学习问题,提出并设计了一个新的稀疏学习的
随着人工智能与大数据时代的到来,描述数据的特征数量在许多领域中都呈现爆炸式增长。高维数据集给传统的学习算法的性能产生了不利的影响,要求更多的计算时间和存储需求,且容易导致模型过拟合。特征选择能够从原始特征集合中选择出最具代表性的特征子集,已经被证明是一种有效的数据降维的手段。在现实世界中,由于人工标注费时费力和缺乏先验知识,未标注的数据越来越普及。在不利用数据标签的情况下,无监督特征选择对全面分析
互联网络科技的迅猛发展促使复杂网络研究成为如今的热点,近些年来利用网络表示学习对复杂网络进行网络分析也越来越热门。然而现如今的表示学习方法缺乏关注网络结构等价性,而利用网络结构等价性进行风险计算被证实是一种有效手段。因此本文创新性地提出了同时利用网络全局和局部结构等价性的表示学习方法来进行风险计算。具体工作如下:首先,提出了互增强网络结构等价性的表示学习算法(DMER)。该方法首先针对网络的结构特
虽然深度神经网络模型在大量的应用场景中取得了引人瞩目的成果,但是这些高性能的模型却存在一个常见的问题,即过拟合问题。为了防止神经网络中出现的过拟合问题,研究者们提出了很多正则方法,如L1正则,L2正则,Dropout等等。受集成学习的启发,本文把神经网络中的隐藏层看成是若干个基学习器的集成。基于集成学习中评估和传统均方误差的偏差-方差-协方差分解理论,我们证明了评估均方误差中的方差项在防止模型过拟
19世纪中期,沙俄通过与满清政府签订《北京条约》,拿下了原属中国的海参崴,改名为符拉迪沃斯托克,俄语意思是"统治东方"。这是俄罗斯太平洋沿岸的深水不冻港。2019年2月,作者行走在这里,想寻找一点中国痕迹,却连最简单的"中国制造"都难觅踪影。
期刊
知识图谱近年来越发引人关注,在智能搜索、问答和推荐系统等领域广泛应用。作为其中的重点研究方向,知识图谱推理是根据目前知识图谱中已有信息进行推断,既可以推理出知识图谱中不存在的事实,也可以判断现有事实的正确性,有很大的研究意义和应用价值。目前主要的知识图谱推理模型中,基于翻译表示的模型无法很好地解决语义多样性地问题,基于随机游走的模型又在时间和空间上开销较大。论文提出了基于深度强化学习的多元奖励结构
甲状腺结节是临床十分常见的一类甲状腺疾病,以良性居多,但甲状腺结节潜在的恶性时刻危害着患者的健康,早期的诊断治疗至关重要。超声检查是诊断甲状腺结节的首选成像方法。近年来,有很多机器学习的方法被用于计算机辅助诊断(CAD)中,计算机辅助诊断需具备高精度和高实时性,才能有效提高医生的诊断效率。现有的基于深度学习的语义分割算法虽然精度较高但实时性不足。论文提出了一种能够实时运行并兼具高精度的语义分割网络
随着无线通信技术和嵌入式技术的成熟,无线传感网得到了飞速的发展,并成为物联网的核心技术之一。大量的传感器以无线通信的方式,构成了以多跳、自组织为主要特点的无线传感网络,并应用于军事、医疗健康、智能制造、智能电网和车联网等多个领域。节点复制攻击是无线传感网中常见的攻击方式。在这种攻击之中,攻击者利用被捕获的诚实节点的信息来伪造网络节点,这些伪造的恶意节点被注入网络之后,可以进行传递虚假消息、更改路由