【摘 要】
:
Image caption即自动生成图像的描述语句,也可理解为“看图说话”,如今,image caption已在多个领域得到应用,比如幼儿教育、图像检索、盲人导航、标签生成等等。目前,绝大多数方法都基于MS-COCO、Flickr8k、Flickr30k等数据集,这些数据集都是由图像之间没有任何联系的自然图像组成的,但在一些基于影视剧集、漫画集的图像中,其中的人物、对象则具有很强的联系,为了能够充
论文部分内容阅读
Image caption即自动生成图像的描述语句,也可理解为“看图说话”,如今,image caption已在多个领域得到应用,比如幼儿教育、图像检索、盲人导航、标签生成等等。目前,绝大多数方法都基于MS-COCO、Flickr8k、Flickr30k等数据集,这些数据集都是由图像之间没有任何联系的自然图像组成的,但在一些基于影视剧集、漫画集的图像中,其中的人物、对象则具有很强的联系,为了能够充分地利用这些联系,加入剧情文本数据。所以本文采用FLINTSTONES数据集,该数据集的图像来自动画情景喜剧《原始摩登人》,并在模型中结合剧情的文本数据进行多模态的学习。本文设计了一个用于自动生成图像的描述语句的算法,该算法基于编码器-解码器架构,并通过加入剧情文本数据来使生成的描述语句更加准确,主要的工作分为两个部分。第一部分为编码器,设计并训练了一个卷积神经网络。传统的方法中将卷积神经网络最后一层的特征图直接作为图像的视觉特征,该特征与文本的关联相对较弱,所以本文方法以图像的属性单词(主要为用来描述对象、动作和场景的单词)来描述图像的视觉特征。该卷积神经网络以图像为输入,然后通过多标签学习的方式,得到该图像的属性分布,并将其作为图像的特征向量,用来引导解码器输出语义更加丰富、更加准确的描述语句;第二部分为解码器,设计并训练了一个基于LSTM的语言模型,该模型首先根据图像的视觉特征和剧情文本向量生成一个隐含向量,然后结合注意力机制和隐含向量生成丰富准确的描述语句,并且在测试的时候以集束搜索的方式生成多条语句以获取较优的结果。最后采用BLEU、CIDEr对结果进行评估,并可以看到,结果在FLINTSTONES数据集在准确性上有一定的提升。
其他文献
咀嚼是通过人体规律性收缩咀嚼肌达到破碎食物目的的过程,其对人类消化、吸收、摄取营养物质具有重要意义。本文利用有限元分析,根据人类咀嚼机理建立三维咀嚼过程模型,分析不同咀嚼模式、咀嚼速率对食物破碎影响,同时利用有限元软件中的流固耦合分析,模拟唾液在食品物料咀嚼过程中的作用,本研究为探究人类咀嚼机理提供参考和借鉴,同时也为仿咀嚼食品质地分析装置的研制提供理论依据。主要研究内容如下:1、人类牙齿表面的独
场景文本编辑是指,在尽量保持背景的前提下,将图像中的文本替换为同风格的目标文本。该技术在文本图像合成、广告设计、图像修复、文本信息隐藏、AR翻译等方面,有广泛的应用,近年来受到极大关注,并取得了重要进展。例如Wu等人提出的基于对抗生成网络的SRNet,已能较好地实现词条级的场景文本编辑。然而,在许多实际应用中,由于存在背景纹理复杂、文本风格难以准确捕捉、目标文本可能不与原文本等长等因素,场景文本编
天然产物一直以来都是活性药物以及活性药物先导化合物发现的重要来源,在现代药物发现中,大部分合成药物都是以活性天然产物为先导化合物进而开发出来的药物,天然产物在新药发现的研究中占有重要的地位,其中生物来源特别是微生物来源天然产物,在药物和先导药物的发现中占有重要位置,这些来源于微生物的天然产物结构新颖,同时具有各种良好的生物活性。本文选取两株不同来源的真菌,一株来自于红树林植物秋茄根部海泥的真菌Ac
背景和目的:克罗恩病(CD)作为炎症性肠病其中的一种,主要是由于遗传、环境、肠道微生态失衡等因素相互作用引起,肠道黏膜的固有免疫和适应性免疫应答发生失衡进而引起的肠粘膜炎症损伤,当前国外研究发现了其200余种易感基因位点,但是目前中国人群中特异的CD易感基因IFNα-4与肠道内特异微生物的相互作用参与其发病的研究尚未见到报道。因此,为了研究IFNα-4在CD发生和发展中的机制和功能,我们拟从对IF
目的:探讨Rps23rg1基因转录调控机制,明确介导Rps23rg1基因转录的转录起始点及关键启动子结合位点,进而筛选可以调控Rps23rg1基因表达的小分子化合物,为寻找以Rps23rg1为靶点的AD治疗药物研发提供科学依据。方法:本研究采用5’端cDNA快速末端扩增技术确定基因Rps23rg1启动子区域的转录起始点,并对转录起始点上下游区域进行生物信息学分析。根据转录起始位点和生物信息学分析结
云计算的缓存干扰显著降低了各承载应用的运行效率,增加了系统的响应时延和服务成本。传统的缓存分配策略常基于统计分析的结果,优化应用的未命中率和每周期指令数等即时性能,在应用数据读写次数等运行状态变化时,未能优化应用的长期运行效率。因此,本文针对云计算中应用间的缓存干扰问题,研究基于强化学习的多应用动态缓存分配技术,均衡提高缓存利用率和各应用的运行效率,改善云计算的服务质量和用户体验。首先,论文提出了
随着工业化进程的不断加快,合成染料逐渐出现在人们的视野中。偶氮染料作为工业中最常使用的染料,经过活化作用后可以产生多种致癌芳香胺。当这些芳香胺随着食物链进入人体,可能会诱发疾病,影响人体健康。因此,在含偶氮染料的纺织废水排放到自然环境中之前,有必要对其进行处理。在保证废水处理效果的前提下,仍需探索研发更加节能、环保废水处理方法以获得更高的处理效率。由于偶氮染料结构的复杂性和其自身的毒性,采用常规的
随着机体维修市场的增长以及新机型的不断引入,民航维修业面临新的机遇与挑战。民航维修企业能否在激烈的市场环境中生存,维修质量保障至关重要。质量巡查(诸如巡查问题率、维修差错率和外部审查问题率等三大指标)被认为是T公司维修质量保障的一项重要工作,但是,目前T公司的质量巡查工作仅局限于对问题的当场纠正,而未充分利用投入大量人力和时间的巡查工作产生的巡查数据。鉴于此,本文通过分析与利用巡查数据,针对T公司
雷公藤红素(Celastrol)——是从传统中药雷公藤中提取出来的主要生物活性成分,被报道能够调节多种细胞信号通路,在乳腺癌、前列腺癌、白血病等肿瘤细胞中具有抑制细胞增值和阻止其侵蚀和转移的作用。但是雷公藤红素本身存在水溶性差、生物利用度低、毒性大和治疗窗口窄等成药性方面的缺陷,因此有大量的结构修饰的工作围绕其展开。而已经报道的修饰方案大多集中在A环的C-2位、C-3位,B环的C-6位和E环的C-
妊娠的关键事件主要包括精卵结合、胚胎植入、子宫内膜基质细胞蜕膜化、胎盘发育等。其中蜕膜化的子宫内膜基质细胞可以在胎盘成功建立之前为成功植入的胚胎提供足够的营养物质。此外,蜕膜化的基质细胞还能够保护胚胎免受母体免疫细胞的攻击,从而实现胚胎的免疫豁免。人子宫内膜基质细胞(HESCs)在发生蜕膜化前具有一个增殖的过程,而后HESCs在体内雌孕激素的作用下分化成为蜕膜细胞。研究显示,cAMP-PKA信号通