论文部分内容阅读
图像分类是计算机视觉领域的研究热点之一,图像多标签分类更是在智慧相册、图像智能管理等领域有着广泛的应用。在这个信息科技飞速发展的时代,网络上的图片、视频资源数不胜数,并且样式各异。如何对这些类别、内容都不相同的图片进行合理有效的管理成为很多学者研究的重点课题。得益于深度学习的快速发展,卷积神经网络已经在图像多标签分类上应用并取得了良好的效果。然而由于多标签图像的复杂性,往往同一图像上具有多个目标,并且目标的形状位置都具有随机性,所以图像多标签分类的研究具有一定的挑战性。目前存在的基于深度学习的多标签分类方法既没有充分体现网络结构的高效性,也没有充分考虑不同目标之间类别上的关联性,这使得多标签分类无法达到很高的准确性。基于此,本文对基于学习的图像多标签分类算法展开研究,主要工作如下:(1)基于高效Refinedet算法的网络结构,提出了一个用于图像多标签分类的密集连接的细化网络(Densely Connected Refinement Network),简称为 DCRN。DCRN将DenseNet中的稠密连接模块添加到Refinedet两个模块不同尺度特征图的连接过程中,使每一层学到的特征图都能被后面所有层直接使用,这大大增强了不同尺度的特征在整个网络中的复用,也使模型变得更加简洁。这样的密集连接方式提升了梯度的反向传播,使得网络更容易训练,在一定程度上提升了算法的准确率。(2)在DCRN的基础上引入了注意力机制,提出了用于多标签分类的attention机制下的DCRN算法。注意力机制可以通过学习各个目标之间的相似性关系为不同重要程度的目标赋予不同的权重,即对关心的目标分配一个较大权重,对无关紧要的目标分配一个较小的权重。通过这种方式可以有效增强识别的准确性。本文将包含注意力机制的目标关系模块代替非极大值抑制(NMS)算法用来去除重复的检测框,这样可以避免NMS需要手动设置参数的问题。通过对不同目标的类别分数和边界框坐标赋予不同权重来进行最后的类别概率输出和边界框回归,实验证明这种方法使算法变得更加准确。(3)在对算法进行研究和训练并得到了更高的准确率后,本文设计并实现了一个基于C/S架构的图像多标签分类系统平台,以作者拍摄所得的生活照作为系统的输入,经过上述算法对图像进行测试,为这些图像打上多个不同类别的标签,完成了图像多标签分类的任务。