基于深度学习和词嵌入的视觉语义嵌入研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:lgshow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,信息的载体越来越呈现多模态化的趋势,多模态表示学习也逐渐成为研究学者们关注的焦点。在计算机视觉领域,视觉识别系统在图像分类上的错误率已经低于人类的平均水平;而在自然语言处理领域,机器翻译的水平也足够人类的日常使用。但在图像描述等需要综合利用图像和文本的领域,计算机的水平还不尽如人意。因此,如何有效结合计算机视觉与自然语言处理的优势,有效利用图像和文本之间的互补性,已成为了近些年学者们新的研究热点。视觉语义嵌入便是研究如何利用图像和文本间的互补性,剔除两者之间的冗余性,从而得到更好的图像表示和文本表示的方法。如今,随着深度学习的崛起,计算机视觉和自然语言处理领域也双双迈入了深度学习阶段。在计算机视觉领域,卷积神经网络已经成为图像相关问题的首选处理模型;而在自然语言处理领域,循环神经网络和词嵌入模型的发展也使得文本分类和机器翻译等应用越来越接近人类的水平。本文研究的主体是如何有效利用深度学习和词嵌入模型来改进视觉语义嵌入模型,获得更优的图像表示和文本表示,以及两者内部真实的语义结构表示,从而提高图像描述等图像与文本交叉领域的学习水平。在本文中,我们分别发挥卷积神经网络、循环神经网络和词嵌入模型等的各自优势,对视觉语义嵌入模型进行研究。总体而言,本文的贡献主要包括以下两个方面:1)我们提出了一种基于词嵌入平均的视觉语义嵌入学习框架,通过框架内卷积神经网络和词嵌入平均的共同学习,它能够将图像的表示空间和文本的表示空间统一到共同的嵌入空间中。在图像方面,我们先使用卷积神经网络提取图像的特征;在文本方面,我们先分别用词嵌入模型得到每个单词的向量化表示,然后取其平均作为文本的特征;最后通过结合了困难负样本挖掘的三元排序损失函数来减小图像特征和文本特征间的误差。通过应用迁移学习做图像相似度检测方面的应用,实验证明了我们的模型能够从图像中提取到正确的语义特征,并为相似的图像生成相似的向量化表示。同时,我们重点研究了困难负样本挖掘和不同的卷积神经网络结构对模型性能的影响。2)我们在基于循环神经网络的视觉语义嵌入学习框架中引入了词嵌入初始化和文本数据扩增,其可以实现两种模态的更好的共同表示学习。在图像方面,我们使用了应用最为广泛和有效的卷积神经网络结构;对于文本方面,我们应用了在自然语言处理中善于处理序列数据的循环神经网络结构,并且使用词嵌入模型以初始化循环神经网络结构中的文本编码器,而且对照了在有无文本数据扩增情况下的模型表现。在模型的损失函数上,我们选择了结合困难负样本挖掘的三元排序损失函数。在实验部分,我们应用迁移学习,在一个小型数据集上做了图像向量与单词向量间的简单的算术运算,表明了我们的模型能够从图像中学习到图像内部的语义特征。通过与其他六种模型的具体比较,实验证明了我们所提出的视觉语义嵌入学习框架在图像标注和图像搜索等任务上表现更好;此外,我们也对模型学习中应用到的训练集使用百分比,以及词嵌入初始化对模型的影响做了重点分析。上述实验同时证明了文本数据扩增更适用于小型数据集,而词嵌入初始化更适合大型数据集。综上,本文在深度学习方法和词嵌入模型的基础上,充分利用学习框架的特征表达能力,来对视觉语义嵌入问题进行研究,挖掘出图像空间和文本空间潜在的语义结构信息。同时,通过广泛的实验和应用证明了我们的学习框架在图像标注、图像搜索和图像相似度检测等方面的有效性。
其他文献
目的:基于中医学理论指导下,本课题以补肾化瘀法为指导原则,通过研究分析陇中损伤胶囊联合钙尔奇D对肾虚血瘀型老年性骨质疏松症治疗前后的临床症状、体征、腰背部疼痛视觉模拟评分法(Visual Analogue Scale/Score,简称VAS)、性激素水平、骨代谢指标及骨密度等指标变化情况,观察使用陇中损伤胶囊联合钙尔奇D治疗肾虚血瘀型老年性骨质疏松症的临床疗效及其安全性,为该药在老年性骨质疏松症的
结核性脑膜炎病人的前驱症状为倦怠,精神淡漠,烦躁不安,二期出现脑膜刺激症状,三期为脑神经损害,视神经萎缩,视乳头水肿,昏迷,偏瘫,截瘫,四肢瘫.本文报道2例以枕神经痛为首发
实验教学课是高等教育的重要组成部分,对培养学生的创新思维及实践能力有不可替代的作用。本文主要对依据I^2C总线原理开设的IC卡系统设计实验课及教学思路作了介绍,阐述了该实
腹有诗书气自华,图有形神气韵生。气韵作为品评艺术作品的重要参考,历来受到艺术评论家的重视,南朝齐画家谢赫把“气韵生动”列为绘画“六法”之首。气韵指的是作为主客体融合的
目的探讨血清中铜蓝蛋白和a1酸性糖蛋白的检测对儿童早期感染的鉴别诊断和疗效判断的价值.方法检测感染患儿50例及体检儿童20例血常规和血清中铜蓝蛋白、a1酸性糖蛋白的含量.
摘 要:本文以正硅酸乙酯(TEOS)为前驱体;乙醇和水为溶剂;采用HCl和NH3·H2O两步催化法;以莫来石纤维为增强材料,在溶胶-凝胶过程后,经过表面改性;采用常压干燥工艺、真空干燥工艺,制备了轻质纳米SiO2气凝胶/莫来石纤维复合材料。采用STA 449 C型热重分析仪,对复合材料的热稳定性进行了测试,并分析了纤维填入后对复合材料热稳定性的影响。  关键词:热稳定性;绝热复合材料;SiO2气凝
数字语言教学系统的延生,是计算机网络技术和多媒体技术飞速发展的产物.本文介绍了数字语言教学系统的优越性能及技术特点,阐述了数字语言教学系统的发展和应用趋势.
烤烟是以收获叶片为主的重要经济作物,单株叶片数是构成烟叶产量的重要数量性状之一,与烟叶品质也有非常密切的关系。研究烤烟叶片数的遗传及筛选与叶片数紧密连锁的分子标记,对于制定烤烟叶片数遗传改良策略,提高选择准确性和选择效率,实施烤烟叶片数定向改良有十分重要的意义。本研究以叶片数差异显著(P<0.01)的烤烟品种NC82和毕纳1号为亲本材料进行杂交,构建了P_1、P_2、F_1、F_2 4世代遗
GPS/北斗导航技术在室外已经成熟且相对广泛应用。而在室内或者GPS/北斗未覆盖的商业区域和地下管网,盲区定位与导航算法、技术相对参差不齐,无统一标准,且普遍成本高昂,民用适用性差。因此,针对于盲区如无GPS信号的地下管廊运动物体追迹和导航的研究,是十分有理论指导意义和实用价值的。目前智能手机发展迅速,成本低廉。智能手机里普遍集成了加速器、陀螺仪、磁力计、气压计等传感器,且其精度已经足够用于商业A
近年来,随着“村村通”、“四好农村路”、“乡村振兴”等战略的实施,我国农村公路网不断完善、公路里程持续增长,但农村公路总体资金投入不足,缺少相关道路交通附属设施,管