图像文本描述算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:hotheart2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的发展,融合多种数据格式的多模态数据有了广泛的应用。如何有效利用多模态数据,帮助人类做出更智能的决策,成为现在的研究热点之一。本文主要研究了多模态数据研究领域的图像文本描述算法。图像文本描述算法需要对图中包含的物体,物体属性,以及物体之间的关系用文字进行准确描述。并且输出的文字描述需要满足语法规则。基于编码-解码网络结构的图像文本描述算法是目前主流的图像文本描述算法之一,在此结构中,通常选择循环神经网络的变体长短时记忆网络LSTM或者GRU作为解码器,将提取到的图像特征转化为文本描述输出。但由于具有循环结构的网络都存在一定程度上的梯度消失的问题,使得训练一个良好的图像文本描述解码网络变得十分困难。同时具有循环结构的解码器不能并行处理数据,大大降低了文本的生成速率,不能很好地发挥GPU的性能。针对此问题,本文提出的包含可以并行处理文本数据解码器的图像文本描述模型TCA和DTC,其中DTC模型中不包含任何循环结构以及卷积结构。通过并行处理序列数据的解码器,提高了 GPU利用率,加快了模型训练速度,同时也提高了生成文本描述的质量。同时,针对现有图像文本描述算法中,仅仅使用交叉熵损失函数作为指导训练网络,没有考虑到图像和文本之间的匹配度,使得模型对相似图像生成的图像文本描述不具有区别性。因此本文在训练图像文本描述模型的过程中,引入对比损失函数作为正则项,提取到图像更具有区别性的特征,进而生成相似图像具有语义区别性的文本描述。通过在标准数据集上的测试结果验证了算法的有效性,本文算法生成的图像描述在各个评价指标相比循环网络均有一定的提高。
其他文献
通过菌丝生长速率法检测了吡唑醚菌酯、辛菌胺、甲基硫菌灵3种药剂对山西省苹果树腐烂病优势种群Valsa mali var.mali的室内毒力,并应用整树喷淋法连续2 a测定了4种常用药剂
在互联网时代下,推进中学线上线下混合式教育已经成为时代必须。特别是这次新型冠状病毒感染的肺炎疫情防控工作,按照“停课不停教,停课不停学”目标要求,各地教育部门、学校
我国乙型肝炎感染流行范围广,发病率高,是危害居民健康的重大传染病之一.调查以宝鸡市卫校近6年入学新生体检资料为依据,掌握新生乙型肝炎感染情况,为人校后采取预防措施提供
位于千岛湖西南边的姜家镇,是遂安文明的发祥地和新安文化的传承之地。1958年因修建新安江水库,遂安古城——狮城的居民迁移至此,形成了一座小镇。这里距县城39公里,集镇三面
目的分析生长年限、海拔、光照因素对大黄中蒽醌和鞣质类等8种成分量的影响,为大黄种植最佳生长条件的选择提供理论依据。方法采用HPLC法同时测定人工种植的54批药用大黄样品
目前,国内外关于船撞桥概率的计算方法很多,但难以满足不同的航道条件下船撞桥概率的研究。本文着重分析了建桥影响以及航道条件对船撞桥概率的影响,可为计算船撞桥概率的研
宋词是我国古诗词文化的瑰宝之一,它在我国文学创作中经历了漫长的洗礼,其深刻的文化内涵和审美意境,给世人留下了一笔无比珍贵的精神财富。为了更好的诠释古韵诗词风格的作品,依据学科规律及学习脉络,本文是以了解宋词的理论概述为出发点,对《钗头凤》、《如梦令》两首作品进行理论与实践分析。开始,歌曲概述了宋词类艺术歌曲的理论,介绍关于宋词类艺术歌曲的定义,宋词歌曲的创作特点,简述宋词类艺术歌曲的形成发展。其次
目的 研究液电波源碎石机碎石治疗对肾功能的损害。方法 对病人进行液电波源碎石机碎石治疗,检测尿酶活性(NAG、γ—GT)和尿β2—MG的排泄。结果 患者体外冲击波碎石(ESWL)后尿NA
目的:探讨经腹腔鞘状突高位结扎术治疗交通性鞘膜积液的效果。方法:采用经腹腔鞘状突高位结扎术治疗交通性鞘膜积液43例儿童患者。结果:全部治愈,无出现腹股沟或阴囊血肿、伤口感
本文认为曹雪芹写《红搂梦》并未忽略尘世之外僧道世界的污浊。所谓出世超尘的僧道世界,仍然未能超出“红搂”之“梦”。在曹雪芹看来,人世间的净土是无处寻觅的。