基于深度学习的跨模态媒体分析方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:magiciany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们身处在跨模态环境,人工智能要更好地理解人们所处的环境,则需要具备解析跨模态信息的能力。通过模态学习搭建能处理和连接跨模态信息的模型。如在内容理解领域,需要分析文本、图片、视频、语音等跨模态数据对应的不同级别特征和其他辅助描述特征等。因此跨模态媒体分析是目前人工智能研究中重要的课题之一,它为不同表现形式(模态)数据间提供了沟通的桥梁。根据跨模态数据的不同表现形式,研究者将跨模态媒体分析任务细分为具有不同目标的子任务,如跨模态数据检索和跨模态媒体翻译等,并在子任务的方向上进一步地探索与研究。随着计算机性能的不断发展,深度学习技术逐渐成为实现跨模态媒体分析任务方法中的主流。计算机利用深度学习技术捕捉跨模态数据的内容并构建这些内容的联系,进而实现相应的任务。本文针对跨模态媒体数据的分布,分析了跨模态数据的特性及相关深度学习技术的优缺点,在不同方向上对跨模态媒体分析任务进行了研究与探索。本文从基本的图像与文本数据出发,分析并理解图像与文本跨模态间的内容与联系,并将理解的内容用于实现图文间的相互检索任务。接着,本文将跨模态数据的理解工作推广到具有复杂分布的视频与文本的相关工作中,并实现手语视频翻译任务。最后,本文针对上述工作中需要大量训练数据的问题,以图像和文本为基准,利用跨模态媒体信息帮助网络模型在样本量不足的情况下完成相应的任务。本文的主要工作如下:(1)提出了一种基于深度学习技术的图像与文本相互检索方法,该方法在捕捉图像与文本内容的同时还在深度学习隐空间中衡量图像与文本间的相关性。在深度学习网络训练的过程中,该方法不仅对已标注样本进行学习,还利用大量的无标注样本对网络参数进行优化。实验表明,该方法在联合优化策略下取得了优异的检索效果。(2)提出了一种基于深度学习技术的从手语视频到自然语言的翻译框架。针对手语视频信息的表现特性,该框架使用时域卷积网络学习视频短时序的动作内容,并用循环卷积网络学习视频长时序的语义内容,同时设计了一种融合网络衡量动作内容与语义内容之间的联系。最后,该框架利用得分融合策略提升手语视频翻译过程的准确率。(3)提出了一种基于全卷积的手语视频翻译框架。结合卷积的性质,该框架利用低层的卷积操作关注视频短时序的动作内容,并利用高层的卷积操作捕捉视频长时序的语义内容。同时,该框架使用稠密连接机制将不同层级的视频内容融合与学习。实验表明,该框架较基于循环神经网络的翻译框架缓解了过拟合现象,同时翻译的结果更准确。(4)提出了一种基于跨模态知识发掘的少样本学习方法,并在数据有限的情况下利用跨模态信息增强深度学习网络的鲁棒性。该方法首先从图像中分离出前景和背景来补充对图像内容的表达,接着从文本标签中获得语义相关性知识并将其用于网络模型的训练,最后结合数据分布知识平衡网络的学习过程。实验表明,该方法大幅提升了少样本学习的准确率,同时该方法也可以提升部分现有的少样本学习的工作。
其他文献
锌是人体必需的营养素,与人类健康息息相关,体内锌紊乱会导致多种疾病的发生,如肿瘤。临床研究发现,肿瘤患者体内缺乏锌,存在多种锌转运蛋白表达异常,膳食补锌具有抑制肿瘤作用,但具体的分子机制仍不清楚。癌症基因组图谱(The Cancer Genome Atlas,TCGA)中数据显示,人类多种肿瘤组织锌转运蛋白Zn T7表达量下降,但无相关机制研究。本课题以此为契机,探究营养素锌对肿瘤发生发展的影响及
肉类食品是人类饮食的重要组成部分,肉制品安全与人们的身体健康和生命安全直接相关。近年来接连发生的肉制品安全事件使人们充分意识到建立准确、有效的肉品质量监管机制的重要性。然而,目前的检测方法仍以实验室分析为主,可用于快速、简单和现场检测肉源性成分的方法较少。针对肉制品检测的研究现状,本论文以聚合酶链式反应(PCR)、环介导等温扩增(LAMP)和重组酶聚合酶扩增(RPA)等核酸扩增技术为基础,并与荧光
随着我国社会经济的飞速发展和物质财富极大丰富,人们的物质生活水平得到了极大的提高,消费者也越来越倾向于购买高端化、个性化和品质化的产品。但传统的自动化生产线主要实现单一品种、大批量的生产,这一生产模式已远远不能满足消费者的需求。为解决需求变动所带来的生产问题,考虑到高端化、个性化和品质化产品的多品种、小批量、到达时间随机等特点,企业往往采用工作台的生产方式,安排员工各自加工,然后根据工艺要求,将加
该文针对行政规范性文件的文本纠错任务,提出了一个基于BERT(Bidirectional Encoder Representations from Transformers,一种经典的自然语言处理领域的预训练模型)的文本纠错模型,模型针对冗余、缺失、错序、错字等四类任务分别建模,分为检错和纠错两个阶段。检错阶段检查出文本是否有错、错误的位置以及错误的类型等内容,纠错阶段运用BERT掩码语言模型和混
下扬子地区在晚中生代时发生了强烈的、多阶段的成岩成矿作用,形成了大量的岩浆岩和多金属矿床。然而,下扬子地区内的两大构造单元,长江中下游成矿带和江南造山带东段,却有着明显不同的成矿特征。长江中下游成矿带燕山期岩浆作用主要产生Cu-Au-Fe矿床,而江南造山带东段却发育大量W-Mo矿床。此外,相对于与成矿密切相关的早阶段岩浆岩而言,长江中下游地区晚阶段A型花岗岩的岩石成因及构造背景研究较为薄弱,且争议
采用酶解法提取新疆伊吾县野山杏多肽,探究其对衰老模型小鼠的抗氧化作用。通过单因素实验,考察酶底物比、料液比、提取时间、p H值和酶解温度对野山杏多肽水解度的影响,结合正交试验,优化野山杏多肽提取工艺;以提取物为原料,D-半乳糖制备小鼠衰老模型,分为空白对照组,野山杏多肽低、中、高剂量组(50、75、100 mg/kg),衰老模型组以及Vc阳性对照组,连续灌胃饲养30 d,测定血清、肝组织和脑组织匀
图或者网络可以对现实世界普遍存在的实体、关系、属性进行建模,构成属性网络。随着信息技术的发展,各种网站、桌面软件、手机应用、传感器产生了大量属性网络数据,如人们熟知的社交网络数据,物联网数据等,为相关研究提供了丰富的数据资源。属性网络的模式发现被广泛用于传染病爆发预测、道路拥堵检测、网络入侵检测等领域。现有网络模式发现的研究多关注单一网络或网络结构方面,而本文将研究重点聚焦于属性依存网络,即多个存
随着环境和能源的严苛要求,电动汽车已成为当前和未来很长一段时期汽车产业发展的趋势,正加速向电动化、智能化、轻量化方向发展。与目前集中式驱动的电动汽车不同,分布式驱动电动汽车具有传动高效、结构紧凑、各轮驱动与制动力矩独立可控等特点,动力输出更加平稳高效,被认为是未来低碳社会与智慧城市的主要交通工具之一。分布式驱动电动汽车取消了差速器等传动系统的机械连接,由四个独立的轮毂电机直接驱动,这对提升汽车稳定
传统特征选择方法在进行特征选择前,特征空间中的所有特征都已存在并且其特征值是可获取的。然而,在实际应用领域的许多具体问题中,存在很多无法预先获取整个特征空间,并且其特征以流的方式存在的场景。为此,出现了面向特征流的在线特征选择方法研究。特征流是指特征数据以流的方式逐个或成组到达,且无法提前获知整个特征空间的信息。随着大数据时代数据体量和维度的剧增,传统批处理模式的特征选择方法因不具有增量处理特性,
自从实时渲染的技术面世以来,一度成为影视动画行业热议的焦点。随着计算机硬件的不断进化与软件研发的技术突破,实时渲染技术也经历了几个发展阶段,已经日趋成熟,以其为技术核心的虚幻引擎在游戏、数字艺术、工业设计、虚拟制片等领域的应用也十分广泛,一方面实时渲染技术的革新使三维动画的创作焕发了新的生机;但随着该技术的日渐普及,其昔日的优势也成了发展的瓶颈。如何应用实时渲染技术在三维动画创作中进行创新与突破,