基于视觉语义结构化建模的自动图像描述研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:xuanwuba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动图像描述旨在生成自然语言来描述图像的内容,是计算机视觉和自然语言处理交叉研究的关键问题,也是人工智能和人机交互技术的重要组成部分,在客观化报告生成、多媒体信息处理、场景巡查与监控和智能人机交互等领域具有广阔的应用前景。在自动图像描述任务中,机器需要理解图像的视觉语义,挖掘图像中主要的语义概念(物体及其关系),并将其转化为含有主要物体及其关系的文本描述。尽管近年来有不少关于自动图像描述的工作不断被提出,然而自动图像描述在视觉语义理解方面依旧是一个有待解决的问题。其主要难点在于从图像中提取明确的且准确的语义概念来引导文本描述的生成。为此,本文提出了一个视觉语义结构化建模方案,并针对基于单个图像的单个文本描述生成、基于多个图像的单个文本描述生成、基于单个图像的多个文本描述生成和基于多个图像的多个文本描述生成四种数据形式下的语义概念准确性问题,围绕视觉语义结构化建模分别从常规的自动图像描述、图像群组自动描述、差异化图像描述和超声图像诊断报告生成四个方面展开深入研究并提出相应的解决方法。具体研究内容和创新点包括:(1)提出了一个视觉语义结构化建模方案和一种基于视觉语义解析的自动图像描述方法。针对自动图像描述中语义精准性和语义关联性的两个关键问题,受场景感知研究的启发引入文本结构这一经验知识的引导,从常规思路出发构建了动态结构的视觉语义解析树模型并分析了其缺陷,对此设计出一个(简化的)视觉语义解析树模型用于挖掘图像中关键的物体并构建其关系结构。本文将视觉语义解析树模型整合到自动图像描述中,设计了一个结构化注意力模型将结构化视觉语义特征嵌入到解码器中来引导解码器生成准确的文本描述。本文将视觉语义解析树模型与解码器进行联合优化并验证了视觉语义解析树模型在自动图像描述任务中的有效性与性能优势。(2)提出了一种基于视觉语义结构相关性和差异性建模的图像群组自动描述方法。探索了在图像群组中,即在由语义相关的多个图像所构成的集合(如相册)中进行自动图像描述的全新问题(简称图像群组自动描述)。针对图像群组中图像间语义相关性和语义差异性的问题,提出了一个视觉语义结构相关性和差异性约束方法,对视觉语义解析树模型的构建进行语义约束来提升视觉语义解析树的准确性和判别性,进而提升生成的文本描述的准确性和判别性。本文提出了两个图像群组自动描述数据集并验证了语义约束的视觉语义解析树模型在图像群组自动描述任务中的有效性与性能优势。(3)提出了一种基于变分结构化视觉语义推理的差异化图像描述方法。针对差异化描述中被忽视的词汇差异性和句法差异性两个关键因素,提出了一个由视觉语义解析树引导的变分多模态推理树模型,推断图像语义中词汇的差异变量和句法的差异变量,通过对两个关键因素的显式建模提升生成的文本描述的差异性。为了将词汇和句法的差异变量嵌入到编码器-解码器框架中生成差异化文本描述,提出了一个结构化编码器-推理器-解码器框架联合优化变分多模态推理树模型和解码器。实验验证了变分多模态推理树模型在图像描述生成的准确性和差异性上都具有明显的性能优势。(4)提出了一种基于视觉语义序列化结构化建模的超声图像诊断报告生成方法。率先探索了自动图像描述在超声图像诊断报告生成中的应用,针对超声图像的语义呈现多视角序列化关联和多主题结构化关联的特性,提出了一个序列化视觉解析图模型准确地挖掘多视角超声图像中多主题的语义概念(病症类别)。针对多主题诊断描述输出的问题,提出了一个主题导向的诊断描述生成模型来生成主题相关的诊断描述。同时构建了首个用于超声图像诊断报告生成任务的心血管超声图像数据集并验证了视觉语义序列化结构化建模方法在诊断报告生成上的有效性和性能优势。
其他文献
目的 探讨结合医学模拟教学护士规范化培训对其临床岗位胜任力的提升效果。方法 选取2018年广州市第一人民医院入职新护士63名作为对照组,常规进行护士规范化培训,2020年入职新护士68名作为观察组,予以结合医学模拟教学的护士规范化培训。对比2组教学效果、满意度、岗位胜任力。结果 教学后2组专业理论、操作技能直接观察法(DOPS)、迷你临床演练评估量表(Mini-CEX)得分均升高,观察组高于对照组
期刊
铝及其合金在航天航空、高铁、舰船、汽车制造及现代建筑等领域有着重要应用,其腐蚀与防护问题也成为研究者们所关注的一个焦点。本论文面向重大需求,通过分析铝及铝合金在海洋环境中的腐蚀与防护研究现状及关键技术问题,开展了 Al及其合金表面ZnAl-LDH膜层的制备、腐蚀防护性能及保护机理的系统研究。主要研究内容及进展如下:(1)通过长时间跟踪Al表面嵌有硝酸根的ZnAl-LDH膜层的阻抗谱、XRD谱图以及
学位
发光金属有机框架(Metal Organic Framework,MOF)材料因其在分子/离子检测、温度传感、白光LED、生物医学等领域的潜在应用,近年来引起了广泛关注。本论文首先简述了金属有机框架的特点、合成方法及其应用领域,其次系统地介绍了发光金属有机框架的特点、发光机理、光功能化策略及研究动态以及它在白光LED和应力发光方面的研究现状。针对传统白光LED用荧光材料存在的高发光效率和短荧光寿命
学位
细胞凋亡受阻是导致癌症发生、发展及抗药性的重要原因。细胞凋亡通路主要分为线粒体通路和死亡受体通路。线粒体不仅是细胞的能量工厂,也是细胞凋亡的调控中心。无论凋亡刺激通过何种通路,一旦作用于线粒体引发其外膜通透化(mitochondrial outer membrane permeabilization,MOMP),导致膜间隙中细胞色素c(cytochrome c,Cyt-c)等凋亡因子外泄,细胞凋亡
学位
高温合金是航空发动机和燃气轮机的关键材料,其研发对我国国防和工业的发展至关重要。其中,新型Co-Al-W基高温合金由于具有较高的熔点,有望发展成为下一代高温合金的候选材料之一。然而,该类合金存在γ’相热稳定性较差、γ/γ’两相成分区域较窄和合金密度较高等缺陷,限制了其在航空发动机领域中的应用。因此,研发兼具优异的γ’相热稳定性和低密度的新型Co基高温合金是该研究领域亟待解决的关键科学问题之一。由于
学位
荧光成像技术因其高灵敏度和高特异性而被广泛应用于化学和生物学研究中。然而,光学衍射极限的存在制约了传统荧光成像技术的空间分辨能力,特别是轴向分辨能力只能达到约500 nm。这一特点极大地限制了研究者们对组织纤维、细胞器等精细生物结构的研究。表面等离子体耦合发射显微技术(Surface Plasmon-Coupled Emission Microscopy,SPCEM)是一种新型的表面增强荧光显微技
学位
使用有机小分子(如甲醇和甲酸等)或氢气作为燃料电池的阳极燃料可以为清洁的电动汽车提供动力。通过原位电化学谱学技术和密度泛函理论能够探索燃料电池的电催化反应机理,并为新型纳米催化剂的开发提供理论指导。合金纳米材料作为燃料电池电化学反应先进的纳米催化剂,极大地提高了电催化活性和稳定性,并引起了广泛的关注。目前,随着纳米技术和表征方法的发展,研究人员可以有目的地合成具有特定物理性质和优异化学性能的合金纳
学位
由于拥有类分子的性质和结构明确易于表征等优点,纳米团簇是在分子水平上研究纳米材料结构和构效关系的理想模型体系,利用团簇体系去研究纳米科学中亟待解决的基础科学问题一直是团簇科学研究者的目标。近年来纳米团簇转化化学的研究备受关注,有目的性地对结构明确的纳米团簇进行后修饰或转化,有助于创造有导向性应用价值的功能材料。在本论文中,重点研究了炔基保护的币金属纳米团簇的转化化学和相关性质研究,围绕溶剂、表面配
学位
电化学还原CO2(CO2RR)为高附加值化学品和燃料逐渐受到人们的关注,因其可作为一种维持碳平衡和能源有效利用的关键技术。太阳能(US$0.04-0.06 kWh-1)和风能(US$0.06-0.08 kWh-1)的电力成本不断降低,逐渐接近化石燃料水平,为电还原CO2带来了机遇。然而设计高效CO2还原电催化剂还存在一些挑战:(1)提高水溶液反应条件下CO2还原选择性,抑制析氢副反应;(2)提高反
学位
三维重建是指从单幅或多幅二维图像中重建出物体的三维模型并对三维模型进行纹理映射的过程。三维重建可获取从任意视角观测并具有色彩纹理的三维模型,是计算机视觉领域的一个重要研究方向。传统的三维重建方法通常需要输入大量图像,并进行相机参数估计、密集点云重建、表面重建和纹理映射等多个步骤。近年来,深度学习背景下的图像三维重建受到了广泛关注,并表现出了优越的性能和发展前景。本文对深度学习背景下的图像三维重建的
期刊