【摘 要】
:
多模态表征学习已经成为计算机视觉、自然语言和语音处理等领域中一个热门研究方向。然而,现有大多数多模态表征学习方法在多模态层次特征提取和多层次特征融合方式上仍然面临一些挑战亟需解决。(1)信息不对称问题,即现有方法多关注如何提取某种模态的细粒度的局部信息来增加监督,导致在其他模态上找不到与之相对应的部分,从而影响监督信息发挥作用。(2)混合层次融合问题,即现有方法多使用统一表征方法对多模态数据进行混
论文部分内容阅读
多模态表征学习已经成为计算机视觉、自然语言和语音处理等领域中一个热门研究方向。然而,现有大多数多模态表征学习方法在多模态层次特征提取和多层次特征融合方式上仍然面临一些挑战亟需解决。(1)信息不对称问题,即现有方法多关注如何提取某种模态的细粒度的局部信息来增加监督,导致在其他模态上找不到与之相对应的部分,从而影响监督信息发挥作用。(2)混合层次融合问题,即现有方法多使用统一表征方法对多模态数据进行混合层次融合,造成数据的层次性被忽略。这些挑战使得大部分现有方法难以有效解决多模态表征学习任务。为解决信息不对称问题,本文提出加强多角度全局信息提取的特征提取方法,从多层次特征提取模型和层次间损失函数两个方向改进。本文除了能够提取局部信息,还能从不同角度充分利用全局信息,相比于现有方法关注提取细粒度的局部信息来增加监督,本文不仅增加了监督信息,而且有效避免了细粒度局部信息造成的信息不对称问题。其次,为了加强层次间约束,本文提出了层次间一致性损失函数,进一步帮助表征学习。本文在视频-文本检索任务和视频字幕任务上进行大量的实验并提供了可视化结果,实验结果证明了本文所提出的方法提取的特征能够包含更丰富的信息。为解决混合层次融合问题,本文提出分层次特征融合的多模态协同表征模型,从特征融合方法和跨模态知识蒸馏两个方向改进。本文除了能够将多模态信息进行融合,还能充分利用到信息的层次特性,相比于现有方法关注使用统一表征方法来进行多模态混合层次融合,本文不仅融合了多模态信息,还考虑了信息的层次特性,丰富了表征。其次,因为多模态数据的质量不一,粒度不一的特点,本文提出了跨模态知识蒸馏方法来进一步提取有用信息。本文在视频-文本检索任务和视频字幕任务上进行大量的实验并提供了可视化结果,实验结果表明本文所提出的分层次融合方法能够有效融合多模态数据的特征帮助表征学习。
其他文献
当代大学校园教育理念的革新发展下,学生的课外活动变得丰富多样,同时随着大学校园建设日趋整体性和交往性,建筑与校园环境从割裂走向协同。大学生活动中心作为集各类学生课外活动于一体的校园公共建筑,其对校园环境优化以及学生校园生活营造的重要性逐渐被提出和实践。文章针对大学生活动中心与校园环境布局割裂、内部活动空间利用率低下的问题,通过结合公共空间营造、校园整体性设计等理论分析实际案例,科学地展开大学生活动
随着我国创新社会治理体制进程的加快,政府不断加大社会工作服务的购买力度,服务质量备受关注,对社会工作服务的评估也因此发展起来。同时,随着新公共管理主义的发展,社会服务评估不再只是政府部门的管理需求,也是社会公众的需求。当前学界关于评估的研究甚多,但大多从单一角度出发,要么侧重过程评估要么关注成效评估,同时也缺乏对多元协商参与的研究讨论。而与之不同的是,整合评估模型提出整合多种评估形式,从系统化、全
随着5G时代的到来,光纤通信系统正朝着大规模密集波分复用的方向发展,传统的掺铒光纤放大器(EDFA)因其受限的放大波段,已无法满足未来光纤通信系统高速、宽带、长距离传输的需求。光纤喇曼放大器(FRA)因其具有宽带宽、低噪声、可分布式放大等一系列优点成为现代光纤通信的关键技术。增益平坦化是光纤喇曼放大器的一个研究热点。通常采用空间波分复用(WDM)法解决光纤喇曼放大器增益平坦问题,即多个不同波长的抽
植脂奶油是由植物油脂、糖类、蛋白质、乳化剂和稳定剂等制成的水包油(O/W)型乳浊液经搅打之后形成具有泡沫结构的产品,广泛应用于奶油蛋糕等烘焙食品行业。目前市售植脂奶油产品多以葡萄糖和淀粉糖浆为原料,添加量为25-30 wt%。本课题探究了糖类物质影响植脂奶油品质的作用机制。在此基础上,采用麦芽糊精和膳食纤维部分替代复配糖,改善降糖植脂奶油的品质。主要研究内容和结果如下:研究了糖类物质的种类和用量对
物联网技术已在智能家居、智慧工业、智慧城市等多种场景发挥重要的作用。物联网平台是物联网应用开发的核心关键支撑技术。本文对现有的物联网平台进行对比分析,结合作者实际参与物联网类项目的共性需求,对物联网平台实体集成与数据分析模块的若干共性关键技术开展研究。本文主要研究内容及贡献如下:(1)物理世界在虚拟世界的表达。本文提出表达物理实体,如温湿度传感器等设备,的虚拟世界实体模型和实体关系模型,并基于OP
以椰子油(Coconut oil,CO)为原料制备的椰子甘油二酯油(Coconut oil-based diacylglycerol,CO-DAG)可显著降低血清甘油三酯含量以及脂肪合成相关酶的水平,从而改善脂质代谢,抑制脂肪积累。然而,关于CO-DAG的理化性质和在食品中的应用还缺少深入研究。本文系统考察了CO-DAG的甘油酯组成、脂肪酸组成、熔点、固体脂肪含量、结晶熔化曲线、流变特性及晶型等,
随着国家大力发展基建项目,我国的道路里程数在逐年快速地增长。但随着行车压力的增加以及自然因素造成的损害,道路不可避免地会产生各种病害,容易造成交通事故,威胁了到行车安全。道路的封锁维护也阻碍了经济发展。裂缝作为最常见的道路病害之一,通常是演变成大型病害的根源,如果不及时检测并修复,裂缝会破坏路基,从而形成松散、脱空等病害,甚至会造成道路坍塌。所以道路裂缝的检测十分重要,但传统的人工检测方法通常是低
睡眠分期是诊断阻塞性睡眠呼吸暂停低通气综合征的关键任务。目前,将深度学习技术应用于睡眠分期任务是一个研究热点。睡眠分期任务一般需要大量有标签多导睡眠图数据通过监督学习方法对深度神经网络进行训练,但是高质量的有标签多导睡眠图数据数量稀少。因为多导睡眠图数据标注的过程十分繁琐,并且标注人员需要有睡眠医学相关知识背景,一般是睡眠领域的医生才能进行标注。有标签多导睡眠图数据不足的情况下,通过监督学习方法训
基站天线是一种移动通信中广泛使用的设备,有关于基站天线的研究已经有很多,包括了基站天线设计中的各个方面。目前应用的基站天线基本特征是,多频化、双极化、智能化、阵列化。但移动通信还在不断发展,对信道容量的要求依然在不断提高,而提高信道容量最常见的方式是扩展通信频率的带宽。于是在基站天线的研究中,扩展基站天线工作带宽也一直是主要的研究方向。相比较于单端口馈电基站天线,差分馈电具有一些其它的优势。例如不
随着国家教育事业的蓬勃发展,社会对高校教学质量的关注也日渐提升。学生教学评价作为当前教学质量评估工作中的关键一环,如何深入挖掘和利用学生教学评价数据来提升高校的教学质量也成为了当前很多科研工作者的研究焦点。高校的教学评价数据主要有两种,分别为结构化的教学评分数据和非结构化的课程评价文本数据。但目前绝大部分高校的课程评价模型还仅仅停留在将它们割裂开来看待的阶段,并没有深入探索它们之间深层次的联系和其