论文部分内容阅读
随着互联网存储水平的提高和智能设备的普及,越来越多的人们习惯用拍照来记录自己的生活,每天都会有大量的图像通过智能手机,PC机等智能设备产生并在互联网上共享,图像数据出现了爆炸式的增长。计算机理解图像,对图像进行标注,可以方便管理平台对图片进行分类,也可帮助用户快速准确地检索图像,对有效地整合网络上庞大的图片资源有着重要的意义。传统的图像理解关注的是较为低层次的视觉特征,如色彩特征、纹理特征以及形状特征等。近年来,随着计算机运算能力的重大飞跃,深度学习得到了快速发展,网络上结合视觉信息与自然语言的数据也为深度神经网络学习提供了数据需求,基于深度学习实现图像描述自动生成成为了计算机图像理解的前沿和热点。本文对基于深度学习的图像描述自动生成进行了深入研究,设计了端到端的图像描述生成模型。基于深度卷积神经网络提取图像语义特征,分别用深度可分离卷积神经网络和标准卷积神经网络提取图像特征,用特征金字塔网络进行特征融合,用长短期记忆神经网络将语义特征转换为自然语言,设计并构建了端到端的图像描述自动生成模型(Feature pyramid networks-Neural Image Caption,F-NIC)。公开数据集上的测试结果表明,特征融合提升了模型的表达能力。在此基础上,引入注意力机制(Attention)改善图像特征,基于强化学习(Reinforcement learning)设计新的损失函数,形成了改进后的模型FAR-NIC。在嵌入式系统上搭建平台,实现了FAR-NIC嵌入式系统。公开数据集的评估结果可以看出,FAR-NIC系统的BLEU,ROUGE和CIDEr评分有了很大的提升,评估结果优于对比模型Soft-Attention、Hard-Attention、SCA-CNN和SCST,图像描述更加细致准确。