【摘 要】
:
随着深度学习的快速发展,互联网行业愈加贴近人工智能的研究初心。其中,计算机视觉和自然语言处理这两大研究方向,帮助机器模拟人类的视觉和语义理解,使得深度学习在人工智能
论文部分内容阅读
随着深度学习的快速发展,互联网行业愈加贴近人工智能的研究初心。其中,计算机视觉和自然语言处理这两大研究方向,帮助机器模拟人类的视觉和语义理解,使得深度学习在人工智能上应用卓越。图像描述作为这两大研究方向的融合任务,也受到人们的广泛关注。该任务主要是向机器输入一张图像,然后使得机器能够识别理解图像中的物体、物体属性及其关系,并生成一段语义和语法正确的自然语言描述性文字。近年来,基于深度学习的以“编码器-解码器”为框架的模型在图像描述生成方面取得了突破性进展。本文针对这一架构提出一种基于显著性注意力机制的图像描述生成算法,主要工作如下:(1)根据人类视觉习惯,设计基于faster-RCNN目标检测框架的编码器,关注图像的显著区域并提取特征,克服单一的卷积神经网络在提取注意力分布权重时,因为无法均衡在特征图上的位置的“粗”与“细”,而忽视一些很显著的目标区域的缺陷。(2)提出具有自适应注意力机制的双层LSTM网络解码器,克服了单层LSTM结构简单,解码表达能力有限的缺陷,通过足够的深度和非线性变换来实现所需要的映射,将自适应注意力机制与双层LSTM进行有效结合,从而达到融合改进的目的。本文提出的编码方式针对显著性区域进行特征提取,解码方式结合了自适应注意力和双层LSTM网络,更深地挖掘了注意力资源并增强了语言解码能力,这种显著性注意力机制使模型性能有所提升。本文提出的模型及其变体在图像描述经典的MS COCO数据集上进行了实验,与多种先进主流模型进行了对比,并在BLEU、METOER、ROUGE和CIDEr这些图像描述领域标准评估指标上进行了评估。实验结果表明,本文提出的基于显著性注意力的图像描述方法优于其他六种主流方法。
其他文献
ADP-葡萄糖焦磷酸化酶(AGPase)是淀粉生物合成中的关键酶,由成对的两个大亚基(AGPL)和成对的两个小亚基(AGPS)组成的异源四聚体,分为胞质型和质体型两种,因此,在植物细胞内存在四类AGPase亚基:AGPase胞质型大亚基(AGPL1)、胞质型小亚基(AGPS1)、质体型大亚基(AGPL2)和质体型小亚基(AGPS2)。课题组前期研究结果表明,小麦淀粉合成基因TaAGPL1的过表达能
随着人们出行需求的增加和宽带多媒体业务的发展,越来越多的用户有着在高速移动通信场景下的通信需求。同时,由于高速移动带来的快速时变信道以及如高速列车特殊材料的车体带
供件Object Access Agent(OAA)是一种面向“物计算”的新型软件运行环境技术理念,提供了应用运行支撑环境与服务应用开发方法,可提高应用开发的重用性和扩展性。但OAA技术尚
本文以西藏革吉县嘎拉勒矽卡岩型铜金矿床为研究对象,在矿区地质填图(1:2000)基础上,结合前人研究资料,对该矿床地质特征和控矿条件进行了系统阐述,分析探讨了典型镁质矽卡岩的矿物学特征、成矿岩体的地球化学特征和岩石成因,查明了成矿流体性质和来源,厘定了成矿驱动机制,并初步建立了矿床的可能成矿模型。矿区内出露地层厘定为下白垩统捷嘎组白云岩和白云质灰岩,其下伏为下白垩统郎久组砂岩、粉砂岩和流紋质-英安
压缩感知理论带来了一种全新的信号采样方式。当信号本身或在某个变换域具有足够稀疏的表示时,能够以低于奈奎斯特定理要求的采样率对信号进行采样,并对其完美地重建。对于用
蛋白质泛素化是一类典型的翻译后修饰(PTM),它承担着调节生命活动的重要作用,研究发现泛素化影响着细胞凋亡、细胞增殖和信号转导;蛋白质SUMO化是一类与泛素化非常相似的翻译
甲状腺癌是人体内分泌系统中患病率最高的疾病之一,近年来发病率逐年上升。超声检查可以识别触诊较难发现的甲状腺结节可疑病灶,是实现早期甲状腺癌筛查的有效手段。医院超声
电化学发光(Electrochemiluminescence,ECL)也称为电致化学发光,是经由电化学反应诱发的化学发光。在这过程会经历一系列氧化还原反应形成发光激发态,由高能量的激发态返回低能
随着诸如汽车电子、微处理器等应用系统愈发复杂,需要安培级大电流的场合也越来越多。LDO凭借结构简单、成本低、高电源纹波抑制能力以及快速瞬态响应能力等优点,逐渐占据了过去由开关电源把持的15A的应用领域。如今的电源和热管理趋势是尽可能降低电源电压以减小静态功耗,这会导致MCU和DSP等负载电路对电源电压的变化更为敏感。因此,安培级LDO系统设计中的一个重大挑战是在高摆率负载电流转换期间将输出电压的波
近年来,随着深度学习技术的不断发展,越来越多的研究人员、企业员工等希望利用深度学习技术来理解视频内容。其中,基于视频的行为识别任务得到了许多研究者的关注。对视频中