跨媒体数据语义分析技术研究

来源 :杭州电子科技大学 | 被引量 : 1次 | 上传用户:gmailzyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨媒体数据是指在描述相同概念或事件时,通常使用的表达相近语义,但来自不同模态、不同视角、不同来源的数据。随着信息技术和移动互联网的迅猛发展,数字图像、文本、音频、视频等跨媒体数据正呈爆炸式增长,改变了人们的生活和工作方式。如何利用人工智能技术分析理解这些跨媒体数据的语义内容,已成为计算机科学领域的一项重要研究内容。跨媒体数据的语义分析是包括图像自动标注、跨媒体信息检索、视觉问答等在内的各类跨媒体智能应用的基础。目前跨媒体数据的语义分析依旧面临着巨大挑战。主要表现在:(1)“语义鸿沟”问题导致相同类型的媒体数据特征表示和高层语义的不匹配;(2)“异构鸿沟”问题导致不同类型的媒体数据分布和特征表示不一致。这两大鸿沟严重阻碍了跨媒体数据的准确语义分析及其应用。如何实现跨媒体数据的语义关联理解,是跨媒体语义分析的核心问题。一类方法是跨媒体统一表示,即通过构建公共语义空间,使得模型能够在该空间中直接使用欧式距离或余弦距离等衡量异构数据之间的相似性。通过这种方式缩小跨媒体数据异构鸿沟。然而传统的统一表示基于各媒体数据的全局特征进行建模,无法做到跨媒体数据之间的细粒度信息对齐,并且会引入噪声。另一类方法是特征融合方法,融合不同模态数据的特征并基于融合后的特征分析跨媒体数据之间的语义关联。这类方法的核心是捕捉模态间复杂的关联关系,并利用这种关联关系促进特征融合。但如何捕捉跨媒体数据之间的复杂关联信息还有待深入研究。鉴于此,本文以图像和文本等主要跨媒体数据为研究对象,针对各类跨媒体语义分析应用任务中的图像视觉特征与语义内容之间的鸿沟问题,跨媒体数据之间的异构鸿沟问题,进行了深入研究。旨在利用深度神经网络的非线性建模能力,挖掘跨媒体数据之间的细粒度关联信息,提升跨媒体数据语义分析的准确性,进而应用到各类跨媒体应用中去。论文主要工作包括:1、本文提出了一种基于语义排序学习的语义增强框架,并应用于图像自动标注任务中。跨媒体语义增强的目标是利用视觉特征和文本特征之间的对应关系,寻求一种有效的映射机制。基于具有显著判别分布特性的文本特征,这种映射可以较好地改善视觉特征的杂乱分布特性。我们设计了一个简单但有效的神经网络进行语义排序学习,实现该映射。传统基于排序学习的自动标注模型直接对标签进行排序,而我们的模型主要由两个阶段组成:第一阶段,训练排序神经网络帮助测试图像搜索到更准确的语义近邻图像。第二阶段,采用近邻模型将语义近邻图像的标签传播到测试图像。为了验证该语义增强框架的能力,我们在4个主流公开数据集上进行了丰富的实验。实验结果表明,我们提出的基于语义排序学习的语义增强方法可有效缓解图像视觉特征语义鸿沟对图像语义内容理解带来的不利影响,从而有效提升图像自动标注模型的标注准确率。2、提出了基于文本语义关系的文本表示方法,并在此基础上提出了一种新的基于级联互注意力机制的跨媒体信息检索模型SCANet。传统的文本数据建模方法通常采用与网格数据相同的特征提取方法,将文本表示为“扁平”的特征,忽略了其他文本内部显式或隐式的复杂关系。而本文采用图模型建模文本词级的语义近邻关系信息。我们采用全局共享的图结构和针对特定文本上下文感知的图特征进行建模,并采用级联图卷积神经网络增强词级表征,最终通过对词级的特征融合获得关系感知的文本表示。为了验证该文本表示方法的有效性,我们在此基础上设计了跨媒体信息检索模型SCANet,并通过构建级联互注意力网络,深入挖掘图像-文本跨媒体细粒度语义关联信息,利用这种关联信息实现文本和图像在公共意义空间的细粒度语义对齐,并且采用距离度量学习,以数据驱动方式,学习在公共语义空间中两种媒体数据之间的相似度度量。在5个主流数据集上的实验结果表明,本文提出的文本表示方法和级联互注意力机制可有效缓解跨媒体信息异构鸿沟给信息检索带来的不利影响,有效提高了跨媒体信息检索的效果。3、提出了基于视觉关系推理和注意力机制的跨媒体融合方法,并应用到跨媒体信息检索和视觉问答任务上。我们提出的跨媒体融合方法能够获得不同模态特征之间复杂的对应关系,为下游的预测任务提供充足的判据。我们设计了视觉关系推理模块和视觉注意力模块,结合两者,可以有效融合跨媒体数据特征,进而提升跨媒体信息检索和视觉问答的准确率。视觉关系推理模块可在问题引导下,同时推理图像中各目标两两之间的视觉关系和若干目标之间的关系。视觉注意力模块则采用双线性模型,具备细粒度特征交互能力。在跨媒体检索和视觉问答两种任务上的丰富实验结果表明,视觉注意力模型增强了与问题有关的目标信息,视觉关系推理模型则将目标之间的视觉关系融入到图像特征中,两者结合后可有效缓解跨媒体信息异构鸿沟带来的不利影响。
其他文献
本试验旨在研究维生素D3对黄羽肉种鸡生殖性状及其后代肉鸡生长性能、免疫器官发育、胫骨性状和肉品质的作用。选用720只岭南黄羽肉种母鸡(快大型,46周龄),根据体重和产蛋率一致原则随机分为6个组,分别饲喂在基础饲粮中添加0、800、1 600、2 400、3 200和4 000 IU/kg维生素D3的饲粮,每组6个重复,每个重复20只鸡;试验期8周。雏鸡出生后,根据体重一致原则每组选取120只后代肉
目的对两种不同工艺制备的双价肾综合征出血热灭活疫苗的安全性及免疫原性进行评价。方法分别采用细胞工厂、原10 L转瓶工艺培养肾综合征病毒(hemorrhagic fever with renal syndrome virus,HFRSV)Ⅰ型和Ⅱ型,经病毒收获、灭活、超滤浓缩、纯化及除菌过滤后制备单价疫苗原液,将Ⅰ型、Ⅱ型单价疫苗原液按1∶1等体积混合,采用透射电子显微镜观察病毒形态,12%SDS-
本研究旨在比较乳酸锌和硫酸锌对仔猪肠上皮细胞IPEC-J2锌转运功能、物理屏障和免疫屏障的影响。将IPEC-J2细胞分别用0、1.0、5.0、7.5、10.0和20.0 mg/mL的乳酸锌或硫酸锌(以锌计)培养36 h,筛选出细胞增殖的最适浓度。根据筛选结果将IPEC-J2细胞随机分为对照组、乳酸锌组和硫酸锌组,每组3个重复。结果表明:1)与对照组相比,7.5 mg/mL乳酸锌和硫酸锌均可显著提高
目的分析2015—2020年新报告艾滋病病毒(HIV)感染者/艾滋病(AIDS)病人(简称HIV/AIDS)的流行病学特征,为艾滋病防控提供科学依据。方法以"中国疾病预防控制信息系统"下载的历史卡片为依据,对2015—2020年新报告的HIV/AIDS病人个案资料开展流行病学分析,采用χ2检验进行多个率的比较,Kolmogorov-Smirnov检验资料分布类型,Cochran-Armitage检
胰腺癌疾病的发生通常会引发营养不良以及免疫功能障碍等问题,具有较高的致死率,临床中主要采取手术治疗,同时给予患者必要的营养支持。基于此,本文对比分析胰腺癌术后肠内营养联合综合护理与肠外营养联合常规护理方式的临床应用效果,现报告如下。1资料与方法1.1临床资料选择2015年8月—2018年7月于我院采取手术治疗的100例胰腺癌患者作为研究对象,均经CT、X射线等检查确诊,排除存在其他重要脏器疾
期刊
免疫原性细胞死亡(immunogenic cell death,ICD)是细胞死亡的一种形式,通过释放肿瘤相关抗原(tumor associated antigen,TAA)和肿瘤特异性抗原(tumor specific antigen,TSA),暴露"危险信号"以刺激机体免疫系统产生免疫应答,其特点是释放和/或增加表达损伤相关的分子模式(danger associated molecular p
随着全球化时代的到来,我国的民族传统文化正在受到一定的冲击。英语作为一种普遍性的语言,它的融入会使民族文化逐渐边缘化,所以我们要将民族文化逐渐融入到英语教学中。语言是文化的载体,为了更好地弘扬传统文化,提高广西少数民族文化的影响力,我们要在大学英语教学中要不断加强语言和文化的关系,从而保证广西少数民族文化的弘扬与发展。所以本文将对广西少数民族文化融入大学英语教学展开探究,希望能够培养一批民族文化与
随着社交媒体平台的异军突起,学者们围绕平台公司的价值来源展开了激烈的争论。其中一派学者主张沿用剩余价值剥削理论来解释平台资本对产消者的剥削("剩余价值剥削论")。但另外一派学者不同意这种观点,认为平台资本对产消者的剩余价值剥削,无法充分解释平台公司的价值来源。他们主张从更广的视角来分析平台公司的价值来源("价值的社会创造论")。这两种观点都存在不足,因此提出第三种理论立场,即"外部性剥削论"。在数
近年来,随着社会经济的不断发展,人们的生活质量得到了显著的提升,因此,饲养宠物的人群也在逐渐增多对于宠物有了更高的需求。随着宠物数量暴发式增长,饲养宠物的人越来越多,但同时,各种宠物疾病也随之而来,不但使宠物的健康安全受到危害,人类健康和公共卫生问题也层出不穷。尤其是对于人与犬猫共患寄生虫病而言,采取科学的手段进行防制非常有必要。
近年来,随着互联网、移动互联网、物联网的普及和存储与通信技术的迅速发展,获取的数据量越来越大,具有巨大的潜在价值,数据已经成为人类社会发展的重要经济资产。机器学习从海量数据集中建立模型或者发现知识,为数据分析与数据挖掘提供了算法和技术,因此,机器学习作为探测数据价值的关键手段,在大数据研究中具有极其重要的位置。现实世界中许多数据以复杂高维形式呈现,数据包含非常多的属性或特征,对传统的机器学习是巨大