论文部分内容阅读
随着移动终端技术以及社交媒体技术的飞速发展,每天都有海量的多媒体内容出现在社交媒体上,其中最典型的就是图像、视频,用户往往希望通过分享的图像、视频来传递自己的经历或者对待事物的看法。通过对用户数据的分析,研究人员可以深入挖掘用户的行为习惯、精神状态,从而可以更好地分析用户需求,服务用户,提升用户体验。用户情感分析,是用户行为分析的重要的组成部分。本文以图像情感为研究对象,就如何结合深度学习对图像情感进行准确预测以及如何对情感图像进行准确检索的难题展开了深入的研究。分类问题是模式识别中的典型问题,模型的分类性能往往取决于两个方面,一是特征的选取,二是分类器的选择。本文主要研究图像情感分析中的特征选取问题。不同于传统的目标分类问题,图像情感分类,是更抽象、更高级的图像理解,因而特征的选取十分具有挑战性。同样,对于检索问题而言,准确的图像特征表达是保证其准确率的核心所在。本文针对此类问题,提出了多种不同的特征提取方法。归纳起来,本文主要的研究贡献有如下三点:1)提出了一种基于深度语义特征的图像情感分类方法。传统的图像情感分类方法,通常主要借鉴低端的用于物体检测、分类的特征描述子,或者是简单的基于美学、心理学的特征,这些特征缺乏对一幅图像的整体感知,导致图像情感分类不够准确。众所周知,物体与场景是一幅图像的核心,与之前提及的特征相比,基于物体或场景的特征是更高级的语义特征,它们对图像内容的把握更为准确。对于传统的基于语义特征的图像情感分类方法而言,一方面传统的语义特征由人工设计的低端特征构建而来,在语义表征能力上不够准确;另一方面其将两者割裂开来,单独使用。这两方面的原因,限制了算法的性能表现。本文提出基于深度语义特征的方法,取得了优异的图像情感分类效果。具体而言,一方面,本文提出并验证了在深度网络的基础上,使用不同语义特征以及同一语义特征的不同抽象层次对图像情感分类结果的影响;另一方面,提出了改进的多特征融合算法,通过改进的多特征融合算法,使得算法在传统的多特征融合算法的基础上,取得更为优秀的分类性能表现。2)提出了一种基于视觉关注度的图像情感分类方法。常见的特征提取方法无差别地从整个图像上提取特征,即将一整幅图像用一个固定维度的向量进行表示,而忽略了不同图像区域对最终情感分类的不同贡献。为了强调该问题,本文提出了基于视觉关注度的图像情感分类方法。具体而言,一方面,我们可以粗略地使用图像显著性检测的结果作为不同区域对于情感分类的相对重要性表示,通过对局部特征加权,获取最终的特征表示;另一方面,可以通过对网络的整体训练,让网络自动判断不同区域对情感分类的相对重要性,然后进一步获取加权的特征表示。这两种方法,通过优化特征生成机制,提升了特征的表征能力,从而进一步提高了图像情感分类准确率。此外,我们还分析了不同视觉关注度学习方法对最终学得的视觉关注度模型以及图像情感分类效果的影响。3)提出了一种用于情感图像检索的图像特征提取方法。对于情感图像检索而言,抽取具有区分力的图像特征表示是其中的核心内容。传统的基于深度学习的图像检索方法,往往直接将已经训练好的用于物体或者场景识别的深度网络中的某一层拿出来作为特征表示,虽然相比较传统的特征提取方法,在性能表现上有了很大程度的提升,但是其并没有强调在图像检索中较为重要的两个概念,即小的类内距离与大的类间距离。本文通过设计新的损失函数,在深度网络训练过程中,强化小的类内距离与大的类间距离的概念,极大地提升了深度模型抽取到的特征的辨识度,从而使得情感图像检索效果有了较大幅度的提升。本文对所提出的算法进行了大量的验证实验,实验结果表明基于深度语义特征的图像情感分类方法,相比较基于传统语义特征的分类方法而言,分类效果会有大幅度提升。基于多语义特征融合的方法,会进一步提高图像情感分类性能。通过在深度网络中引入视觉关注度机制,可以进一步提高图像特征表达能力,从而提高情感预测准确度。此外,在情感图像的检索中,通过强调小的类内距离与大的类间距离的概念,可以很大程度上提升深度网络抽取到的特征的辨识度,从而进一步提升情感图像检索效果。