论文部分内容阅读
随着移动互联网的快速发展,互联网图片数据大规模增长,这些海量的图像所包含的信息是非常有价值的,例如可以使用这些信息对用户进行品牌分析,也可以和社交媒体结合起来分析用户的品牌偏好并向用户进行个性化推荐。本文使用对图像Logo进行检测来对海量图片中的品牌信息进行挖掘。虽然近年来采用基于深度学习的方法在目标检测领域取得了很好的成绩,但在图像Logo检测中的效果却不尽人意,主要是因为图像Logo存在多尺度目标和扭曲旋转目标。不仅如此,Logo目标中存在大量的小目标也是导致检测困难的一个因素。本文为了解决这三个问题,提出了基于尺度聚类的多尺度候选框提取网络以及基于长短期记忆模型的目标上下文分类网络,主要研究成果如下:针对图像Logo存在方向旋转的问题,本文引入了自适应卷积层以及自适应池化层对图像Logo进行特征提取,提高了系统对方向旋转目标的鲁棒性。针对图像Logo检测中存在多尺度检测的问题,本文提出一种改进的多尺度候选区域提取网络。多尺度候选区域提取网络使用不同分辨率的语义信息识别不同尺度的目标,显著地提高了获取的候选框质量。不仅如此,针对图像Logo尺寸分布不均匀且相对于普通目标比较小的特点,本文使用了基于Io U距离的k-means算法对Logo目标尺寸进行聚类,得到了Logo目标尺度的分布情况。从而获取到多尺度候选区域提取网络对图像Logo目标进行候选框提取所需要的先验参数,进一步提高获取的候选框质量。因此,通过多尺度候选框提取网络就可以在不同分辨率的特征图下进行候选框提取,最终得到不同尺度的候选框。进行对比实验验证多尺度候选框网络在候选框提取上的召回率有很大提升。针对图像Logo检测中存在大部分小目标导致不易识别的问题,本文提出了基于长短期记忆模型的目标上下文分类网络对Logo目标进行分类。目标上下文分类网络使用到了目标的上下文信息对目标进行分类,通过将不同尺度的目标上下文信息作为长短期记忆模型的输入得到最终的分类结果。长短期记忆模型有效地利用了不同尺度的上下文信息特征对目标进行分类。最后为了提高边框的准确度使用了适合小目标边框回归的方法,再一次提高了检测的准确度。进行对比实验验证基于目标上下文特征的方法,相比传统的目标检测方法而言,在图像Logo-50数据集上的m AP提升了6个百分点。