图像高层语义理解的关键问题研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hejiankimi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来,海量级视觉信息依靠解读数字图像获取。如何让机器快速准确地理解数字图像中的场景、动作并进行自然语言的整理和表述,是需要解决的问题。基于深度学习,本文设计出利用卷积神经网络结合递归自动编码器(Recursive Autoencoder)或者长短期记忆(LSTM)网络构建可以理解图像语义的网络模型。其中卷积神经网络-递归自动编码网络的网络结构在图像场景预测应用中具有可靠性。本文引入信息增益到模型中,用来度量潜在语义分布拟合图像特征分布近似程度,通过评测标准和对比实验验证了卷积神经网络和LSTM网络构成的两种神经网络模型在图像高层语义理解应用中具有可行性和可靠性。本文的主要工作展示如下:(1)设计了卷积神经网络和RAE编码器联合应用的网络模型,通过对比实验,验证了该模型可以在图像场景预测中具有可靠的性能,但是也论证了该模型在高层语义理解应用中的缺陷。(2)引入信息增益作为拉近图像和文本信息分布的损失函数,同时设计了具有双层LSTM网络的网络模型,并按照图像语义描述评估(SPICE)和图像场景预测精度(SGA)两种评测标准设计并完成对比实验,并且分析了对比实验的结果。(3)通过对(2)中的网络模型的改进,构建了分层转换模型的新型表征网络,从而拉近图像特征分布和潜在语义分布,模型使用最近似的潜在语义分布描述图像中语义,模型自动定位图像特征,并完成特征的选择,建立图文联合分布,用以预测图像的高层语义。(4)利用若干微调技巧,对(3)中的网络模型进行训练,并按照评测标准BLEU设计并完成对比实验,通过实验结果对模型进行客观的评估。
其他文献
随着电子商务与社交网络的快速发展,互联网平台中每日产生海量的个人言论和商品服务的评论。这些评论包含人们的各种情感并且蕴含巨大的商业价值。由于数据来源广泛,数量巨大,每时每刻都在增长变化,若通过人工方式来挖掘这些庞大的信息,不仅耗时耗力而且成效甚微,所以需要通过情感分析技术对海量的文本数据进行处理与分析。情感分析是自然语言处理领域的一个重要研究方向,具有重要的研究价值和实际的应用价值。本文主要对酒店
临床实习,是通过安排学生直接到医院科室,担任护七工作,巩固强化理论课进一步获得和掌握护理专业的各种技能,培养优良的工作作风和职业道德,是护理教学过程中的重要阶段,
0引言牙科医生利用高速手机夹持车针对患者进行钻、磨、切削、修整等口腔手术治疗。高速手机按照连接方式分为快接式和螺旋式,按照车针装卸方式分为压盖式和扳手式,按照手机
[目的]设计一种新型的清洁肠道的器具,从而减少病人的不良反应和并发症,提高工作效率。[方法]200例病人随机分为对照组和实验组。实验组依据人体结肠的生理解剖特点将新型抽
会议
目的:评估3D-Slicer软件与传统的多田公式在测量脑出血后血肿周围水肿(Perihematomal edema, PHE)体积中的结果差异。方法:回顾性分析我中心140例基底节区脑出血患者的头颅CT
通过研究PVA纤维、羊毛/维纶(PVA)混纺纱线和羊毛/PVA混纺织物中的PVA溶解特性,得出PVA纤维的状态、处理温度和时间对PVA完全溶解有明显影响.同时分析了PVA溶解程度对混纺纱
高等植物的生长发育是基因选择性表达的结果,而基因的表达受到启动子的调控。启动子如同“开关”一样,决定了基因的活动。一旦启动子活性出现异常,通常会导致基因表达的调节障碍,进而可能导致植物生长发育异常。目前的研究尽管获得了许多具备组织特异性或诱导活性的植物启动子,但是真正适于某个特定遗传改良目的的启动子数量并不多或活性不高。因此植物基因组中潜在的启动子还有待分析和鉴定。Tair网站(http://ww
基于微流控技术的生化反应或药物诊断过程中,使细菌或生物细胞等微小颗粒快速富集,并将样本体积缩减到微流控器件能够操控的有效范围是分析过程的最基本环节。常规的颗粒收集
外周T细胞淋巴瘤是国内比较常见的非霍奇金淋巴瘤类型之一,近年来随着基因表达谱等分子生物学方法在淋巴瘤研究中日益广泛的应用,人们对外周T细胞淋巴瘤的发病机制与预后分型
随着我国经济社会的不断发展,越来越多的流动人口涌入城市就业、工作和居住,城市活力不断增强,同时也给社会治安管理造成了负担。如果流动人口得不到有效的监控和管理,会成为