基于外部知识的场景图生成研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:hnjyli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图生成任务是一项新兴的计算机视觉任务,生成图像内容的结构化表示,缩短图像处理和理解间的语义差距,具有广泛的应用前景。针对VG(Visual Genome)数据集失衡问题,论文从知识图谱(ConceptNet)中分别引入类别相关、局部结构和全局结构的外部信息提高生成场景图的质量。主要工作内容如下:(1)针对类别相关语义信息不足的场景图偏置问题,提出了外部信息引导和残差置乱的生成方法。该方法引入与图像目标相对应的类别相关语义信息,通过残差置乱方式将多层残差语义融入视觉特征中,形成无偏特征表示。实验结果证明提出方法有效地改善中低频关系类别的分类性能,缓解数据集长尾分布的问题。(2)针对局部结构信息不足的场景图偏置问题,提出了外部局部结构信息引导的生成方法。该方法基于图卷积神经网络提取外部局部结构信息,通过非跨模态映射方法将外部信息引入视觉模态。实验结果证明提出方法充分利用了外部知识库中的结构信息,弥补类别相关语义信息的不足,缓解了数据长尾对模型性能的影响。(3)针对特征区分度不足的场景图偏置问题,提出结合外部局部和全局结构信息引导的生成方法。该方法在全局结构信息引导模块利用类内损失和类间损失使不同类别间能相互影响,优化特征空间中特征分布。在局部结构信息引导模块以图卷积神经网络实现外部局部结构信息的传播。消融实验和对比实验证明,结合全局和局部结构信息可以进一步缓解数据集偏置对模型的影响,改善场景图的生成质量。总之,论文开展了外部知识库的类别相关语义信息、局部结构信息和全局与局部结构信息结合在场景图生成任务中的研究。研究表明,引入不同层级的外部信息,可以缓解数据集长尾问题,提高生成场景图的准确性。
其他文献
21世纪是信息技术飞速发展的时代,信息技术的出现大大提高了社会生产力,也为人们的日常生活提供了极大的便利。但用辩证的眼光来看待信息技术,可以发现其在助力社会发展进步的同时,也引发了信息盗窃、信息滥用、信息轰炸等负面问题,个人信息被泄露、滥用的风险很大。大数据时代背景下,个人信息安全风险的增大,相应地要求个人信息保护制度变得越来越成熟、完善。然而,由于我国的公权力机关在个人信息安全保护方面存在支持力
学位
银行信贷是企业创新的重要资金来源,但由于创新活动具有收益不确定性和信息不对称性,风险偏好度较低的银行对企业创新活动采取较为谨慎的态度。同时,银企之间存在收益与风险不对称问题,即银行无法分享企业创新成功产生的回报,却要承担企业创新失败无法偿还贷款的风险。因此,银行可能会发挥贷款人的监督作用干预企业的创新活动过程,比如通过贷后治理机制限制企业的创新研发投入。企业的创新研发活动面临银行信贷约束问题,巨大
学位
自全面“营改增”之后,我国的增值税税率进行了多次下调。制造业是我国的支柱产业,对推动经济高速发展起到至关重要的作用。增值税税率下调对制造业企业的影响效果引起了社会的广泛关注。对增值税税率调整政策的研究,一方面可以让政策制定者检验政策的有效性,另一方面能够使企业了解自身在政策中的获益程度以及如何应对新的增值税改革措施。本文在理论层面从税负效应和价格效应两个方面探讨增值税税率下调对制造业企业成长性的影
学位
网络技术的发展赋予了信息处理技术新的发挥空间,能够实现全收集全分析的云计算技术使得互联网企业对个人信息的采集与利用效率产生了划时代的蜕变。大数据化的个人信息成为了企业产品迭代与竞争的关键因素。信息处理方式的进化让建立在前互联网时代的个人信息保护方式已经不再能够适应当前与未来的信息处理流程,需要对个人信息的基本要素进行重建,其中最重要的是识别性要素的再认识。同时,对《民法典》中对个人信息保护的条款进
学位
随着移动互联网技术的飞速发展,各种网络应用层出不穷,在为人们带来便利的同时,也产生了海量的数据资源,使得人们面临选择困难的窘境。推荐系统从海量信息中筛选有价值部分,生成合适的策略进行推荐,很好地缓解了信息过载的问题。其中,序列推荐通过挖掘用户历史交互记录中有价值的顺序模式,为用户提供更加可靠的推荐,已成为当下研究的热点。然而,现有的模型大都关注用户序列单个层面的问题,对完整的多层面建模不足。基于此
学位
高分辨率图像对于日常生活和科学研究都具有重要意义。但是,由于硬件设备和外部条件的限制,很多时候难以获取满足需求的高分辨率图像。自从深度学习技术应用到图像处理领域以来,在各种图像处理任务中都取得不错的效果,随着深度学习技术的不断进步,基于深度学习的图像超分辨率重建技术在业界内受到广泛的关注。超分辨率技术可以从给定的低分辨率图像或者具有相关性的图像序列中重建出高分辨率图像。超分辨率技术是图像处理中的一
学位
自我国实施社会主义市场经济以来,我国市场与国际市场融合程度与日俱增,企业经营管理体系也愈发现代化。与此同时,许多“舶来”的企业管理制度在此过程中被引进,薪酬保密制度就是其中之一。所谓薪酬保密,就是一种禁止员工和其同事讨论各自劳动报酬的工作场所规则或薪酬管理制度。企业实施这一制度的根本目的在于,通过限制或阻断薪酬信息的传播以维护企业内部稳定和提高经济效益。然而,这项制度在为企业管理带来利好的同时,也
学位
机器阅读理解(Machine Reading Comprehension,简称MRC)是一项针对给定文本和特定问题自动生成或抽取相应答案的问答任务,该任务是评估计算机系统对自然语言理解程度的重要任务之一。目前已有大量开源机器阅读理解数据集发布,且现有的阅读理解模型已在非推理类数据集(如:SQuAD,TriviaQA等)上取得了与人类可比甚至超越人类的性能表现。但在考验模型推理能力的数据集(如:Ho
学位
随着互联网和多媒体设备的普及,图像已经成为信息承载和传播的主要媒介。通常,图像分辨率越高,图像质量就越好,也越能表现出更多的细节。目前的硬件设备和图像采集过程制约了部分场景下高分辨率(High Resolution,HR)图像的生成,从而影响了对这类图像处理的处理效果。因此,使用算法重建HR图像已经成为图像处理和计算机视觉领域的研究热点之一,最为基本的算法是单图像超分辨率(Single Image
学位
随着生物医学领域的发展,相关文献资料呈现出指数级增长的趋势,如何快速高效地从大量生物医学文献中提取出有价值的信息和知识已成为一个亟待解决的问题。生物医学事件抽取任务是从生物医学文献中自动抽取出生物事件,并以结构化的形式表示出来。本文对生物医学事件抽取任务进行研究,主要内容包括:(1)基于流水线方式的生物医学事件抽取。本文使用先进的预训练语言模型实现了一个基于流水线的生物医学事件抽取框架。该框架将生
学位