论文部分内容阅读
使用机器模拟人对图像内容感兴趣的程度作出评价称为图像兴趣评价。传统的图像兴趣评价通常是基于人工设定的确定性规则,对图像做出感兴趣程度的评价。然而由于图像蕴含信息量大、表达内容相对多样等特点,难以人工地去设定相对客观的评价规则,而带有数据监督的学习方法能更好地让机器学习到图像内容与感兴趣程度之间的联系。本文通过研究带有监督学习的图像兴趣评价方法来取代图像兴趣评价规则的人工设定方法。为实现图像兴趣评价方法,本文的主要工作如下:
论文介绍了图像兴趣评价的相关背景、意义与国内外研究现状,通过分析传统方法的缺点,阐述了研究图像兴趣评价方法的必要性。
图像兴趣特征的提取方法。本文通过优化浅层网络并对稠密层进行双通道特征整合提取图像兴趣特征。在网络浅层使用StemBlock结构,优化了低层次特征提取效果。对于稠密层,采用双通道denselayer结构,相较于传统的单通道结构,双通道的特征提取结构具有更好的感受野。收集并标注了可以用于研究图像兴趣评价的数据集。基于该数据集,提取CNN浅层次的多通道特征图,结合VLAD算法实现了对全图的特征表达。
在提取图像兴趣评价特征后,论文使用softmax实现了初步的图像兴趣评价映射关系。然而,Softmax输出的兴趣评分与标签评分差的大小会导致不同的损失值,传统的交叉熵函数却无法表达这一差异。论文在交叉熵的基础上提出了基于类间距离度量的交叉熵损失函数,更加准确地表达图像兴趣评价模型错误输出带来的损失,从而使模型向更优的方向优化,显著地提高模型的评分准确率,使得平均绝对误差、均方误差均有下降。对于兴趣评价标签因人工标注带来的主观性、模糊性,本文将标签模糊化替代传统的one-hot编码处理,有效地抑制了模型的过拟合现象。总体而言,通过改进交叉熵损失函数和将标签模糊化均有利于提高模型的整体性能。
论文引用了课程学习的方法有效地解决了训练样本标签不可靠带来的模型训练偏离最优化方向问题。论文提出基于特征相似度和兴趣评分的课程设计方法。对训练样本特征作Kmeans聚类,若同一类别中有大量相似分数的样本,则认为这些相似分数的样本是可靠的。在模型训练过程中,让模型从可靠的数据集开始学习,再逐渐增加相对不可靠的数据集,使得模型的性能逐步提高。最后加入无标签数据训练,图像兴趣评价模型的泛化能力得到了进一步优化。
论文介绍了图像兴趣评价的相关背景、意义与国内外研究现状,通过分析传统方法的缺点,阐述了研究图像兴趣评价方法的必要性。
图像兴趣特征的提取方法。本文通过优化浅层网络并对稠密层进行双通道特征整合提取图像兴趣特征。在网络浅层使用StemBlock结构,优化了低层次特征提取效果。对于稠密层,采用双通道denselayer结构,相较于传统的单通道结构,双通道的特征提取结构具有更好的感受野。收集并标注了可以用于研究图像兴趣评价的数据集。基于该数据集,提取CNN浅层次的多通道特征图,结合VLAD算法实现了对全图的特征表达。
在提取图像兴趣评价特征后,论文使用softmax实现了初步的图像兴趣评价映射关系。然而,Softmax输出的兴趣评分与标签评分差的大小会导致不同的损失值,传统的交叉熵函数却无法表达这一差异。论文在交叉熵的基础上提出了基于类间距离度量的交叉熵损失函数,更加准确地表达图像兴趣评价模型错误输出带来的损失,从而使模型向更优的方向优化,显著地提高模型的评分准确率,使得平均绝对误差、均方误差均有下降。对于兴趣评价标签因人工标注带来的主观性、模糊性,本文将标签模糊化替代传统的one-hot编码处理,有效地抑制了模型的过拟合现象。总体而言,通过改进交叉熵损失函数和将标签模糊化均有利于提高模型的整体性能。
论文引用了课程学习的方法有效地解决了训练样本标签不可靠带来的模型训练偏离最优化方向问题。论文提出基于特征相似度和兴趣评分的课程设计方法。对训练样本特征作Kmeans聚类,若同一类别中有大量相似分数的样本,则认为这些相似分数的样本是可靠的。在模型训练过程中,让模型从可靠的数据集开始学习,再逐渐增加相对不可靠的数据集,使得模型的性能逐步提高。最后加入无标签数据训练,图像兴趣评价模型的泛化能力得到了进一步优化。