论文部分内容阅读
随着近些年深度学习和计算机视觉技术的快速发展,互联网图片、视频数据的规模也越来越大,图像中的信息发挥着越来越大的作用,尤其是图片和视频中的商标检测,是一个非常重要的问题。商标检测在现实生活中拥有很多有用的应用,比如在品牌的商业分析以及品牌侵权方面。商标作为一个公司、组织或者产品的独一无二的符号,商家可以通过搜索相关的商标,来分析其品牌在整个市场上的发展情况以及未来的发展趋势,同时可以帮助广告商来检查广告的有效性和是否存在版权侵权方面的问题。汽车商标的检测还可以帮助实现一些智能交通系统,甚至是增强现实。商标既可能是文本符号,也可能是图形,亦或是两者的混合。目前商标检测中存在的主要难点包括:商标在图片中的位置和上下文是不确定的,由于自然场景中各种照明效果、遮挡、旋转、裁剪效果以及尺度大小不同,商标存在着很大变化以及商标的类内差异比较大,类间差异有的会比较小,容易带来误检;像车辆商标这种,一般都会存在着目标较小的问题;深度网络模型需要大量的标注数据,目前主流的商标检测的公开标注数据集存在着商标种类不多、标注数据较少的问题,不利于模型的训练。针对训练数据不足的问题,本文提出了一种基于背景分割的商标数据合成方法。由于直接在背景图片上合成商标这种策略没有考虑背景的变化,商标随机位置合成时,尤其是文本类商标,在这种复杂的背景下,合成的商标会显得很不真实,这种样本的存在会干扰模型学习的效果。本文通过对背景图片进行分割处理,基于图像处理的方法来处理商标模板,以及在最后合成时的处理,来生成效果更加逼真的样本。针对自然场景中的商标存在各种多样性差异且不易区分的问题,本文一方面通过数据合成方法合成更加丰富多样的数据;另一方面,在算法模型方面,本文在特征提取阶段引入了双维度注意力机制,增大辨别力强的特征的权重,抑制辨别力弱的特征。同时,本文在算法中引入相似度学习,通过在损失函数中加入三元组损失,进一步增强模型对目标的分类能力。针对自然场景中存在商标遮挡问题,本文在算法中引入多区域上下文信息,增加了商标在遮挡情况下的检测与识别能力。针对自然场景中的商标存在大量小目标且尺寸分布不均匀的问题,本文使用多尺度特征提取网络提取特征,并使用基于IoU距离的Kmeans算法对商标尺寸进行聚类,在检测与识别阶段,引入目标上下文信息对目标进行分类,提升对小目标检测的准确率。最后实验部分,本文分别验证了数据合成算法和检测识别算法的有效性,并通过与相关算法的对比验证了本文工作的优势。