论文部分内容阅读
图像场景语义描述是计算机视觉和自然语言处理领域的交叉任务,其目标是对视觉数据给出语义解释,实现从视觉空间到语义空间的映射。视觉语义描述技术研究不仅在学术界成为热点,也在工业界得到越来越多的关注,具有广阔的应用前景,如对工业视频监控系统的智能化推进。当前,煤矿视频监控系统已经在井下普遍应用,但对于异常场景只是通过监控人员观察视频进行识别,然后采取应对措施解决,效率较低;并且其应用规模已远超人力观察范围,监控视频更多只用作事后取证,较多隐患问题不能早期识别与处理。将图像语义描述技术应用于煤矿监控视频系统可以实现煤矿视频监控在线智能化,大幅提升煤矿安全管理水平和事件处理效率。由于图像底层的视觉特征与高层的语义概念存在很大差异,目前的图像场景语义描述算法仍然存在较多不足,如确定图像的关注重点、挖掘更高层次的语义信息以及完善描述句子的细节信息等。因此本文针对图像语义描述技术存在的上述问题进行改进,提出基于Global-local Feature和Adaptive-attention图像语义描述算法,并将其应用于实际场景。本文的研究内容如下:(1)提出基于Global-local Feature和Adaptive-attention图像语义描述算法。在编码部分加入图像的局部特征,将局部特征与全局特征融合输出,以提取图像更细节的信息;解码部分引入自适应注意力机制,自适应学习描述文本生成过程中视觉特征和已生成语义单词特征权重,对输入图像生成更全面、更准确、更细致的语义描述。(2)将本文提出的基于图像语义描述算法在公共数据集上进行实验,并实现系统展示。将本文算法与目前主流图像语义描述算法进行对比实验,由结果可知,本文提出的图像语义描述方法可以更全面、更准确、更细致地对图像内容进行描述;描述效果较其他图像语义描述模型的描述效果更好。设计基于Web前端展示的图像场景描述系统,使得用户可以通过浏览器客户端调用已训练好的模型实现在线图像场景语义描述。(3)创新性地将本文提出的图像语义描述算法应用于煤矿场景。获取煤矿监控视频帧图像,并做截取关键区域和去噪预处理,制作煤矿场景语义描述数据集;利用煤矿场景数据集训练图像语义描述模型,实现对煤矿场景图像的语义描述输出;设计煤矿场景的语义描述系统,实现对井下煤矿监控视频的实时语义描述输出,对异常场景作出提醒输出。