面向异构媒体数据的特征嵌入学习

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:tony_m_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,知识的呈现形式趋向于跨媒体特性,即多模态异构数据以交叉混合的形式来共同表达知识,传统的单模态数据分析与处理技术无法很好应对这一形式的变化。因此,海量异构媒体数据的分析与处理技术亟待研究。异构媒体数据分析与处理的主要问题之一是多模态数据的异构性带来的度量挑战,即异构鸿沟问题。为了解决这一问题,本文围绕文本和图像这两种主要的异构数据形式,从特征嵌入学习入手,主要研究基于特征嵌入学习的文本图像检索、基于特征嵌入学习的文本辅助图像多标签分类和基于特征嵌入学习的文本辅助图像语义分割等内容。论文的主要研究内容和创新成果包括:(1)提出了一种基于任务驱动和对抗学习的特征嵌入学习方法。由于数据的异构特性,现有特征嵌入学习方法不能有效解决异构媒体数据在公共特征空间中分布不一致的问题,导致异构媒体数据在嵌入空间的相似性度量不准确。针对上述问题,本文根据不同的异构媒体检索任务学习特定的嵌入空间,利用对抗学习来降低文本和图像在嵌入空间的分布差异,从而使文本和图像在嵌入空间中的表征分布保持一致。在两个主流的基准数据集Flickr30K和MS COCO上的实验表明,本方法可有效地提升异构数据检索的性能,对于图像检索文本任务和文本检索图像任务性能分别获得了3.75%和3.35%的平均增益。(2)提出了一种基于丰富特征表示的特征嵌入学习方法。由于异构媒体数据表示方式的单一性,导致异构数据在嵌入空间的表征能力差。针对上述问题,本文分别构造图像和文本的丰富特征表示,并通过基于难样本挖掘的三元组损失函数来学习嵌入公共空间的丰富特征。在MS COCO和Flickr30K这两个主流的数据集上的实验表明,本方法可有效地提升异构数据检索的性能,图像检索文本任务和文本检索图像任务上的性能分别获得了3.11%和2.38%的平均增益。(3)提出了一种面向图像多标签分类的特征嵌入学习方法。由于部分类别存在视觉目标不可见、外观形态差异大以及目标类别整体服从长尾分布的问题,导致开放环境下的图像多标签分类准确度差。针对以上问题,本文将文本蕴含的常识信息迁移到图像多标签分类中,利用双路协同学习网络区分各种图像目标类别之间的差异,并将此差异化的信息整合起来用于预测标签类别,进而得到更具有信服力的预测结果。在大规模图像识别数据集Recipe1M上的实验表明,本方法可有效地提升食物图像多标签分类的性能,能获得8.27%的平均增益。(4)提出了一种面向图像语义分割的跨模态特征嵌入学习方法。由于图像语义分割标注成本大,使得语义分割数据集通常比较小,导致在标注数据有限条件下语义分割结果较差。针对以上问题,本文使用多模态预训练方法进行任务间的知识迁移,首先利用大量易获得的文本和图像训练图像文本交叉检索模型,然后将检索网络学习到的知识迁移到图像语义分割模型中,实现了从检索任务到语义分割任务间知识迁移的目标。本文构建了一个新的食物图像数据集,在此数据集上的实验结果表明本方法可有效提升食物图像语义分割的性能,能获得2.2%的平均增益。
其他文献
种子作为植物和作物生产的主要投入,具有巨大的生物和经济意义,受到农民、生产者、种子经营企业、种子质量监督检验站以及种子管理部门的高度关注。种子质量与人民的健康以及生活水平息息相关,在一定程度上决定了农业发展的水平。传统方法难以满足现代农林业的批量种子品质检测要求。种子品种、活力和含水率都是种子品质的重要指标。本文基于高光谱技术,以玉米和大豆种子为研究对象,从品种、活力和含水率三个方面开展了种子品质
学位
齐墩果酸(OA)是一种五环三萜类天然产物抗肿瘤药物,广泛存在于女贞、油橄榄、连翘等木犀科(Oleaceae)植物当中。齐墩果酸具有抗肿瘤、保肝、抗炎等多种药理活性,引起了研究人员极大的重视。齐墩果酸由于水溶性差、毒副作用大、稳定性差等局限性,制约了药效发挥和临床应用。为了克服齐墩果酸存在的不足,实现安全及高效的药物递送,本论文利用天然高分子纤维素衍生物、α-环糊精材料,通过官能团反应、可逆加成断裂
学位
国有林场是维护国家生态安全的重要基层林业生产经营单位,同时也是林业生态系统的核心和骨干,在林业现代化和生态文明建设方面具有不可替代的作用。近年来,国家对国有林场持续开展了20年扶贫工作,并在2015年启动了全面改革,为其今后健康良性地发展创造了有利条件。经营效率是体现国有林场现代化程度的一个重要指标。资源禀赋差异是经营效率产生差异的重要内部因素,根据资源基础理论框架,资源禀赋的高低会影响经营决策的
学位
2022年2月,刊登在《Nature》杂志封面上的一篇文章,展示了10-21量级的锶原子光晶格钟测量精度,通过测量在同一光晶格中原子高度差相差1 mm的两团原子的时间流逝速度不同,在微小的空间尺度上验证了爱因斯坦广义相对论的正确性。凭借锶原子光晶格钟超高的测量精度为寻找标准模型之外的新物理、测量和导航领域新技术的建立、以及未来国际单位制中“秒”的重新定义等奠定了基础。本文在锶原子光晶格钟实验平台上
学位
本文首先以光钟的定义、应用以及锶光钟国内外研究现状,空间光钟国内外研制情况,以及我国空间时频体系的建立为论文的背景,介绍研制空间光钟需要解决的困难和问题,包括环境适应性、质量、功耗、体积、电磁兼容、高度集成化、高度自动化、高可靠性以及高稳定性等。对空间光钟的构成与设计方案进行了简述,针对空间光钟面临的技术困难,从系统层面介绍空间光钟整体设计方案,以及概述构成空间光钟三个单元的结构设计。分析空间光钟
学位
第五代移动通信技术(5th Generation Mobile Communication Technology,5G)可以基于端到端(Device-to-device,D2D)通信实现终端间低时延、高可靠、高吞吐的信息交互,同时有效保证数据的私密性。随着智能交通、智慧农业和工业物联网的不断发展,用户的定位需求不断提升,面向5G-D2D通信网络的用户间协同定位技术将是5G定位的重要发展方向之一。然
学位
背景:在人类中,任何与细胞异常生长有关的疾病都称为癌症。在全球范围内,每年这种非传染性疾病患者的发病率正在上升。肝细胞癌是人类死亡和发病的主要原因之一。目前对肝癌的认识和治疗的进展尚不十分清楚。为了准确诊断和治疗肝细胞癌,需要发现许多新的生物标志物。据报道显示许多新的肝细胞癌病例对大多数化疗药物具有耐药性。这使科学家考虑为患有肝细胞癌的患者考虑替代药物治疗或支持药物治疗。人类的研究表明,从植物,真
学位
近年来,得益于通信技术的进步和智能移动终端的普及,在线社交网络得以快速发展,极大地便利了人们的沟通与交流。与此同时,在线社区的匿名特性也使得一些不良行为难以治理,并造成了较为严重的社会影响。一个可行的手段就是通过用户鉴别技术从用户数据中挖掘出真实身份信息,以实现对不良行为的有效治理。然而,由于用户数据形式多样,且可被用户自由编辑,传统的用户鉴别技术面临普适性差、可靠性低等诸多挑战。对此,本文从数字
学位
由于污水处理厂在生物脱氮过程中通常会产生大量具有很强温室效应的温室气体氧化亚氮(N2O),因此在“双碳”战略下污水处理厂减排N2O势在必行。要实现污水处理厂减排N2O,掌握生物脱氮过程中N2O的产生机理是前提。在生物脱氮过程中,含氮化合物的转换过程是由各种酶的催化完成的。酶的催化也控制着生物脱氮过程中含氮化合物的转化方向,因此探明相关酶的调控作用是揭示生物脱氮过程中N2O产生机理和规律的核心,也是
学位
猝死是法医学研究领域中的热点。在法医司法鉴定中,猝死逐年增加。世界卫生组织对猝死的定义为,平素身体健康或貌似健康的患者,在出乎意料的短时间内(6小时之内),因自然疾病而突然死亡,即为猝死。猝死主要分为心源性猝死和非心源性猝死,其中约80%为心源性猝死。在临床上,导致心源性猝死最常见的原因为冠状动脉粥样硬化型心脏病引起的心肌缺血缺氧。然而,早期心肌缺血缺氧在法医病理学鉴别相当困难,是法医司法鉴定的难
学位