基于语音的人脸画像方法

来源 :中国人民公安大学 | 被引量 : 0次 | 上传用户:made121990699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频和图像是人类最常用的两种信号传输模式,随着科技的发展,单一模态已经不能满足应用需求,跨模态研究让语音-人脸画像技术成为可能,因跨模态特征之间的表达方式不同,该技术仍然具有很大的研究潜力。本文运用机器学习技术,结合统计学、生物学等学科基础理论开展跨模态研究,挖掘语音与人脸之间的关联性,根据任意给定的说话人语音片段匹配相对应的说话人面部图像,并构建基于语音的多角度人脸生成模型,实现对说话人的语音画像。主要创新和工作包括:首先,提出基于PSO-CNN网络的语音特征编码模块。针对传统的MFCC特征提取方法无法对非声学特征进行精准过滤的问题,通过粒子群算法对卷积神经网络进行改进,在池化时序特征的同时优化网络训练速度,建立语音特征编码模块。该模块对所需语音特征进行提取和编码,最终实现了语音高维特征的输出。其次,提出基于残差网络的面部特征编码模块。面部编码的作用是从人脸图像中提取特征向量,通过迭代训练优化特征表示;在残差网络的基础上构建面部特征编码模块的方法可以对面部特征进行有效提取,加强特征间的信息共享,通过迭代训练过程生成更好的特征表示。通过反卷积将提取的面部特征可视化,对面部特征提取质量进行评价。再次,改进了一种基于残差结构的特征匹配模块,实现语音-人脸画像。跨模态特征匹配将语音和人脸关联起来,对编码后的两种特征进行拼接整合,训练网络学习拼接特征的相似度,最终达到通过语音特征在多个面部特征中成功匹配到正确面部特征上的目的。最后,通过周期隐式生成对抗网络实现单视图人脸图像的多角度图像生成。由于单视图人脸图像的特征表达并不全面,在语音画像的基础上对二维人脸图像进行多角度人脸生成,可以获得人脸的多角度视频信息和图像信息。文中尝试通过神经辐射场对二维图像进行建模,经由生成对抗网络生成多角度人脸。
其他文献
近年来随着经济的不断发展,环境违法犯罪问题日益突出,环境案件行刑衔接机制在环境案件办理中并没有发挥应有的作用,在实践运行中仍然存在诸多不足之处。当前我国环境案件关于行刑衔接的相关规定主要集中在环境行政执法机关向公安司法机关案件移送、处罚衔接,证据衔接上,但对公安司法机关向环境行政执法机关反向执法衔接缺乏程序规定,导致实践中出现“不罚不刑”、“有案不移”反向衔接不畅等新的问题。环境犯罪是一种行政犯罪
学位
大数据时代到来,公民的个人信息正面临着技术发展与权力扩张的双重考验,公安机关在警务活动中会通过各种方式处理海量的公民个人信息,相较于其他行政机关所掌握的个人信息,公安机关所处理的个人信息体量更大、范围更广、准确度更高、识别性更强。现如今,公安机关除了传统的面对面询问式收集、点对点的针对性利用外,还会采取天网视频工程、小区人脸识别系统、警务APP等无接触式的信息采集方式以及模糊查询、扩展检索等这种由
学位
新型冠状病毒疫情爆发以来,各地政府紧急提升应急响应级别,通过发布政府公告或通知,要求娱乐场所等人员密闭场所关停歇业。公安机关作为娱乐场所的日常治安管理部门,负有对娱乐场所落实疫情防控政策的监督检查责任,执法实践中对违反疫情防控政策的娱乐场所经常作出责令停业行为。但是目前学界对于责令停业行为的法律性质莫衷一是,引发了有关责令停业行为合法性的讨论。本文通过对责令停业的性质和法律归属进行研究,旨在进一步
学位
电磁阀的驱动信号通常是开关量(高电平阀门开通、低电平关断),比例阀的驱动信号通常是脉宽调制(PWM),驱动电流一般在3 A甚至更大。文中设计一种基于数字信号处理器(DSP)TMS320F28335的电磁阀、比例阀驱动系统,创新地设计使用隔离电源模块替代半桥驱动芯片自举电容的方式,实现电磁阀、比例阀驱动接口复用,即一个接口既可以输出开关量信号,也可以输出PWM信号。所设计系统可以驱动多路电磁阀或比例
期刊
为探析高职学生群体现状及网络语言霸凌行为的发生机制,基于已有文献和挫折—攻击、公羊博弈等理论构建了条件过程模型。运用问卷法对20 233名高职学生进行调查分析发现:(1)农村籍高职学生占比较大且相对剥夺感普遍较高;(2)民办高职院校学生心理状态相对不佳且网络语言霸凌水平较高;(3)相对剥夺感直接正向预测网络语言霸凌行为;(4)高幸福感弱化网络语言霸凌行为、强化学业成就。明确了相对剥夺感“如何”影响
期刊
通过优化实验条件,建立了离子色谱梯度洗脱测定高氯盐污水中微量硫酸根的方法。该方法有效避免了高浓度氯离子的干扰,具有操作简便,快捷,线性范围广,灵敏度高等特点。有效的避免了高氯盐对硫酸根测定的影响,加标回收率在97.5%~105.1%之间,相对标准偏差为0.46%,是测定高氯盐中微量硫酸根的有效方法。
期刊
城市的快速发展吸引了大量外来人口的迁入,导致了社会关系的重构和亚文化现象的产生。这些因素使得具有不同地域特征的犯罪人之间产生了共同犯罪关系。当前对于外来人口犯罪现象的研究缺少针对具体城市外来人口构成和迁移因素的分析。并且目前在基于犯罪人地域特征共同犯罪关系的影响方面主要集中于统计方法下的分析,缺乏对于犯罪人地域特征层面上关于共同犯罪合作对象的选择及影响因素的研究。鉴于此,本文以北京市2005-20
学位
目的:研究急性ST段抬高型心肌梗死(STEMI)和急性非ST段抬高型心肌梗死(NSTEMI)合并急性心力衰竭(AHF)的危险因素。方法:回顾性收集2019年1月至2020年12月期间就诊于新疆医科大学第一附属医院诊断为急性心肌梗死(AMI)患者(n=519)的相关资料,分为STEMI(n=313)组和NSTEMI(n=206)组,通过是否合并急性心力衰竭分为AHF组(n=198)和无AHF组(n=
学位
目的:探讨宏基因组二代测序技术(m NGS)对异基因造血干细胞移植(allo-HSCT)后急危重症患者的临床价值。方法:对2019年10月1日至2022年2月28日在新疆医科大学第一附属医院血液移植病区行造血干细胞移植的61例患者进行随访。所有患者在接受预防性抗感染治疗的同时,术后均出现发热。完善m NGS及传统检测,参考m NGS检测结果调整治疗策略,评价预后并分析m NGS技术在HSCT患者中
学位
目的:探讨扩散张量成像(DTI)的量化指标与脊髓型颈椎病(CSM)患者的临床神经功能评估之间的相关性,应用DTI量化指标来分析CSM患者脊髓受损的特征,评价DTI在预测CSM中的价值。方法:选择2021年1月至2022年1月期间在新疆医科大学第一附属医院神经外科就诊的CSM患者15例,将CSM患者分为A组(即T2WI脊髓高信号组)和B组(即T2WI脊髓未见明显异常组),对CSM患者正常节段处和病变
学位