论文部分内容阅读
图像描述生成是一项连接计算机视觉和自然语言处理的技术。随着图像描述能力的提高,其实用价值也越来越大,是当前人工智能研究领域中的热点和难点。船舶目标是海洋活动的主体。及时掌握船舶目标信息,是打造我国海洋强国建设国家战略的重要基础技术环节。基于海洋遥感图像的船舶目标智能处理主要有两个方向:(1)基于计算机视觉的船舶目标识别,如基于深度学习的图像船舶目标自动识别技术等,实现对船舶类型的准确识别;(2)基于图像描述生成的船舶目标语义信息生成,实现非结构化遥感图像到结构化船舶目标语义信息的转换,对遥感图像中包含的船舶目标运动状态、周围环境、场景等语义信息进行合理的文字描述。本文重点关注基于图像描述生成的船舶目标语义信息生成研究,首先提出一种新的图像描述生成模型--ICBVFMA模型,并把该模型应用到海洋船舶目标监管应用中,主要完成工作如下:(1)针对ICBSA模型中存在的特征信息量小、语句生成不流畅等不足,本论文提出了一种新的ICBVFMA模型。首先,利用视觉特征提取网络,提升特征提取的表达能力;其次,设计带有视觉选择机制的LSTM,提高生成语句的流畅性;第三,使用多空间特征匹配技术,重新校准空间注意力的生成;第四,通过混合注意力,融合视觉信息和语言信息;最后,通过重塑优化目标,提升生成语句的整体质量。为了演示和验证本文所提出的ICBVFMA模型,分别开展了两类实验:1)实验1,利用公开COCO caption测试数据集,将ICBVFMA模型的测试结果提交至COCO官方服务器进行测评,实验结果表明:ICBVFMA模型方法的CIDEr-D分值能达到1.225,BLEU-4分值可达0.336,ROUGE分值可达0.579,相较于其他基于注意力的图像描述生成方法取得了更优异的结果;2)实验2,利用自建船舶图像描述数据集进行实用性测试,实验结果表明:可以满足语义信息提取的要求,同时生成语句的质量也得到改善。(2)针对海洋船舶目标监管难题,面向无人值守下视频监控系统对船舶目标情报自动生成的应用需求,本论文提出一种基于ICBVFMA模型的船舶目标情报自动生成方法。首先,通过视频关键帧提取,去除视频流的冗余;第二,利用船舶目标识别网络,对关键帧中的船舶目标进行检测和识别;第三,利用ICBVFMA模型,生成关键帧中船舶目标的运动状态、周围场景等文本信息;最后,综合船舶目标识别结果、时间、空间、运动状态和场景等信息,实现船舶目标情报自动生成。为了演示和验证本文所提出的船舶目标情报自动生成方法,在嵌入式平台Jetson AGX Xavier上分别部署了视频关键帧提取模块、船舶目标识别网络、ICBVFMA模型,并且编写脚本文件将其集成到一块。实验结果表明:本文提出的船舶目标情报自动生成方法可以满足实时性、准确性和可靠性要求。综合利用Nginx、Pytorch、Flask等工具,设计并实现了基于船舶图像描述的视频监管原型平台。