基于深度学习的图像中文描述模型研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:ZPHZPH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是一项融合计算机视觉与自然语言处理的技术,能够实现从图像信息到文字信息的转换。图像描述在人机交互、视觉辅助和智能机器人等诸多场景中具有重要的应用价值。目前大多数是针对英文语句的图像描述研究,中文语句与英文语句在语法、分词、表达等方面有所不同,中文描述语句的准确度和细致度等仍有待提高。本文采用深度学习方法对图像中文描述模型进行研究,主要工作如下:第一,提出了基于多尺度密集连接网络的图像中文描述模型。针对目前的图像描述模型存在图像特征提取单一、图像特征与词向量强对齐等问题,采用多尺度密集连接网络作为编码器,增强模型对全局图像特征的捕抓能力;采用融合自适应注意力机制的双向长短期记忆网络作为解码器,加强对上下文信息的利用以及优化其与图像特征之间的对齐关系;采用结巴分词对描述句子进行分词,并通过Word2vec模型来获得词嵌入向量;将图像特征与词嵌入向量输入到语言解码器中,生成相应的中文描述语句。实验结果表明,该模型的BLEU、METEOR等评价指标取得较好评分,生成的中文描述语句有很好的准确性和可读性。第二,提出了结合全局和局部特征的Bi GRU-RA图像中文描述模型。针对基于全局特征的图像描述模型存在细节语义信息不足的问题,本文将全局图像特征与带有视觉属性的局部特征进行融合,提高模型的图像理解能力。在编码阶段,分别使用残差网络和Faster R-CNN提取图像的全局特征和局部特征,增强模型对不同尺度图像特征的利用。在解码阶段,采用嵌入了残差连接结构和视觉注意力结构的双向门控循环单元作为解码器。模型可以自适应分配图像特征和文本权重,改善图像特征区域和上下文信息的映射关系。此外,加入基于强化学习的策略梯度对模型的损失函数进行改进,对评价指标CIDEr进行优化。实验结果表明,Bi GRU-RA模型在各项评价指标上表现良好,生成的中文描述语句更准确、更详细。
其他文献
图像在人们日常生活中起着举足轻重的作用,是人们获取信息的主要来源之一。当人们使用拍照机设备拍照的时候,由于场景光照亮度、拍摄设备等原因,得到的图像都会出现对比度低、能见度差和ISO噪点高等问题。这样的图像细节信息不明显,降低了图像的实用性。因此,人们提出了大量的方法改变图像的对比度,使图像的细节明显,提高图像的质量和使用价值。多数的这些方法在增强图像时,通常会出现过度增强、部分细节丢失等问题。而且
随着定位装备的广泛应用,轨迹数据量高速增长。通用伴随模式挖掘聚焦时空维度上的运动对象高相似度行为路径发现问题,基于大规模轨迹数据设计高效准确地通用伴随模式挖掘方法对发现用户偏好、构建新商业模式等具有重要意义,同时也极具挑战。一方面,海量且不断增长的轨迹数据要求通用伴随模式挖掘框架应具有良好可扩展性,单机挖掘框架并不适用。另一方面,在现有通用伴随模式的分布式挖掘框架中,存在对数据输入的质量、轨迹数据
现今,与无人机相关的技术发展十分迅速,尤其是利用无人机搭载高清摄像头获取影像数据,已被广泛应用,但是单幅无人机图像无法展示一个完整区域的具体内容。为了获取分辨率更高、视场角更大的无人机影像,本文对无人机影像拼接技术进行了研究,并利用GPU框架对拼接过程进行加速。另外,在雾天环境下进行无人机航拍会极大地影响图像的成像质量,而且会出现图像特征信息模糊的问题,这可能导致之后无法正常地进行特征点提取。本文
无线传感器网络(Wireless Sensor Networks,WSNs)得益于现代信息、计算、无线通信等技术的迅速发展,因其传感器节点微型、低功耗等优势,已成为当代人们日常生活重要的部分。然而,由于微型廉价的传感器节点在存储、通信和计算等方面资源有限,且在恶劣的环境下容易被破坏,从而导致网络通信受阻。因此,有效地延长网络的生命周期,提高节点的能量效率显得十分重要,而合理的传感器节点部署方法不仅
瞬变电磁法是一种建立在电磁感应原理基础上的有源测量方法,根据测得的瞬变电磁信号分析地电体之间的电阻率差异,进而达到探测地下地质体的目的。然而,瞬变电磁信号容易受到各种噪声的影响,尤其是在信号的晚期测道处,噪声可能会淹没有效的瞬变电磁信号,导致信号的利用受限,影响对深部目标的探测。瞬变电磁信号降噪是指利用各种方法,尽可能地压制噪声,提取有效的瞬变电磁信号,以便后续的处理。目前的瞬变电磁信号降噪方法大
移动通讯和互联网技术的不断进步,以及云计算、大数据等一系列新兴技术的蓬勃发展致使网络空间加速变革,拓扑结构愈发复杂导致网络流量持续爆炸式增长,而且,屡见不鲜的网络攻击事件使得网络安全问题首当其冲。网络安全态势感知技术能够弥补传统安全防护技术的缺陷,通过获取引发网络态势发生变化的态势要素,对其进行安全评估分析,从而及时发现网络攻击威胁与异常,并对网络变化趋势进行预测。它旨在从宏观角度出发,系统、整体
人机对话是自然语言处理领域最具挑战性的任务之一,也是未来实现人机共融社会的基础。近年来,得益于深度学习技术的发展和大数据时代积累的海量数据,基于神经网络的对话生成方法受到了学术界和工业界越来越多的关注。目前基于深度学习的生成式对话模型大多以最大似然估计为训练目标,这种方法容易产生内容单一且不含有意义信息的通用回复。情绪的感知和表达在人与人的交流中起着重要的作用,然而现有的研究主要集中在话语的语义理
随着互联网技术的发展,越来越多的人乐意在网络平台中发表评论。随着时间的推移,网络平台产生并保存了大量的评论性文本信息。这些评论信息往往蕴藏着用户对某事件或某产品的倾向性观点及情感,对其进行情感分析,有助于网络舆情监控;也有助于商家改进产品质量,提高服务水平。在文本情感分析方法中,粗粒度的句子级情感分析只能得到文本的整体情感,无法得到所评论对象不同方面或属性的情感信息。而细粒度的方面级情感分析可获取
随着移动电信技术和智能终端的飞速发展,大量计算密集型、时延敏感型的新型应用不断涌现,如智能交通、虚拟现实、车联网、物联网等,为满足移动终端的低时延响应需求,一种整合网络边缘中异构资源的分布式计算范式被提出,即多接入边缘计算(Multi-access Edge Computing,MEC),又称移动边缘计算。但由于MEC的计算资源有限,且用户终端的任务类型复杂多样,不同任务类型的处理难度差距较大。因
阿尔茨海默症(Alzheimer’s Disease,AD)是一种神经退行性脑部疾病,临床上表现为记忆障碍、行动以及语言能力丧失等。AD根据临床症状表现可分为轻度认知障碍(Mild Cognitive Impairment,MCI)、正常情况(Normal Control,NC)和AD。MCI是AD和NC的一种中间状态,是AD的前驱阶段,且MCI的临床症状不明显,在病情的初期不易被察觉,一般情况下