论文部分内容阅读
随着人们的审美需求日益提高,研究符合美学的视觉内容变得越来越迫切。从图像中裁剪出构图更佳的区域是提升图像美感的有效手段之一,也是计算机视觉领域极具挑战性的问题。在有限的存储和传输资源约束下,利用自动裁图算法为用户提供尽可能好的视觉体验,具有重要实际意义。主流裁图算法旨在构建基于图像美学评价的裁图评分模型,无法很好地解释图像美学的内在机理,现有的裁图数据集难以有效评价裁图模型的泛化能力。为验证主流裁图评分模型的真实性能,本文基于差异最大化竞争思想设计了一种有效的裁图评分模型泛化度量算法(maximum discrepancy competition for generalized image cropping model evaluation)。为提升自动裁图的视觉效果,本文进一步提出了聚合细粒度特征的深度注意力自动裁图模型(deep attention guided image cropping network with fine-grained feature aggregation,DAIC-Net)。具体研究内容如下:(1)基于差异最大化竞争的裁图模型泛化度量算法。该算法主要包含4大步骤:获取规模足够大的初始图像数据集,并获得所有待评估裁图评分模型在该数据集的预测结果;选择任意两个裁图评分模型进行成对比较(pairwise comparison),获得二者裁图评分分布差异最大的图像集合;再推广到所有模型的两两竞争,构建模型差异最大化且具代表性的裁图测试集;通过小规模主观实验获取测试集的平均意见分数(mean opinion score,MOS),计算所有裁图评分模型预测结果相对MOS的一致性和准确性,并将结果转化为两两模型成对比较的分数矩阵和所有模型的全局泛化能力排名。实验结果表明,本文提出的算法能够使用较少的人力物力,自适应地收集真实场景下的裁图困难样本,高效、准确地检验当前最新裁图评分模型对于开放视觉世界的泛化能力,并反映各竞争模型的优势和缺陷,为基于美学评价的自动裁图算法研究提供潜在优化方向。(2)聚合细粒度特征的深度注意力自动裁图模型。整体模型结构由通道校准的语义特征提取(semantic feature extraction with channel calibration,ECC)、细粒度特征聚合(fine-grained feature aggregation,FFA)和上下文注意力融合(contextual attention fusion,CAF)3个模块构成,采用端到端的训练方式,核心思想是多尺度逐级增强不同细粒度区域特征,融合全局和局部注意力特征,强化上下文语义信息表征。ECC模块在通用语义特征的通道维度上进行自适应校准,融合了通道注意力;FFA模块将多尺度区域特征级联互补,产生富含图像构成和空间位置信息的特征表示;CAF模块模拟人眼观看图像的规律,从不同方向、不同尺度显式编码图像空间不同像素块之间的记忆上下文关系;此外,定义了多项损失函数以指导模型训练,进行多任务监督学习。在3个数据集上与最新的6种方法进行对比实验,本文方法优于现有的自动裁图方法,在最新裁图数据集GAICD(grid anchor based image cropping database)上,斯皮尔曼秩相关系数和皮尔森相关系数指标分别提升了2.0%和1.9%,其他最佳回报率指标最高提升了4.1%。在ICDB(image cropping database)和FCDB(flickr cropping database)上的跨数据集测试结果进一步表明了本文提出的DAIC-Net的泛化能力。此外,消融实验验证了各模块的有效性,用户主观实验及定性分析也表明DAIC-Net能获得视觉效果更佳的裁图结果。