论文部分内容阅读
随着电商平台的迅速发展,商品图像数量呈现爆炸式增长。商品图像的自动分类也因此成为一个重要的课题。近年来基于卷积神经网络(CNN)的大规模视觉分类研究取得了长足进步,其中普遍采用的是平行的一对多(flat one-vs-all)网络结构,但这类结构对商品图像分类来说并不是最优的。一件商品在电商平台上通常存在多个处在不同层次的类别标签(例如:鞋和运动鞋),同时商品还包含一些属性描述,如款式、颜色、品牌等。以上两类信息显然可以被用来辅助分类,然而,利用这些信息来探索商品分类方法的工作尚不多见。此外,电商平台上商品类别标记错误的情况并不罕见。通过视觉分析方法纠正这些蓄意或无意的错误标注类别,对电商平台来说也是一个有着明确应用价值的课题。基于以上认识,本文研究在存在商品类别层次标签和属性描述下的大规模商品图像分类方法,提出了两种基于深度学习的解决方案。同时,针对类别标注错误现象,提出了一种基于视觉分析的类别纠错方法。具体如下:首先,本文提出了一种基于空间显著性学习和多类回归的分类方法ssCNN-MCR。空间显著性学习方面,通过在CNN中插入一个空间显著性模块进行空间权重学习,可突出商品前景区域在分类中的重要性;多类回归方面,首先基于不同层次的类别标签分别构建深度分类模型,然后利用多类回归模型将这些深度模型的分类结果进行融合,挖掘它们之间的相关性。淘宝数据集上的实验表明,融入显著性学习和多类回归后,确实提高了大规模商品图像分类的性能。其次,本文提出了一个基于多任务学习的端到端商品图像分类方法ssMTL-CA。该方法将商品类别判定和属性值预测视为同一个网络中的可互相增强的不同子任务,通过设计合理的网络结构及损失函数,实现融入属性信息的商品图像分类。与前述ssCNN-MCR通过两阶段学习实现分类不同,ssMTL-CA可融入更多有助于分类的信息并实现端到端的建模学习。淘宝数据集上的实验表明,基于多任务分类的方法在性能上显著超过了基于单任务的方法,特别是在属性信息相对完整齐备的情况下。本文基于细粒度商品类别和描述性属性构建的ssMTL-CA方法取得了最好的分类性能。最后,本文提出了一个基于深度视觉分类模型的商品图像类别纠错方法。首先通过数据分析明确了易混淆或标注错误的类别。然后,通过提取商品在深度分类模型中的得分向量分布,融入类别间的混淆关系矩阵、商品预设类别标签信息,-提出了三个类别纠错方法,旨在将类别标记错误的图像赋予尽可能高的置信度得分从而更容易被找到。实验表明,融入多种信息的纠错模型在纠错准确率及检索效率方面均显著的超越了其他方法。