论文部分内容阅读
社交网络的发展为人们提供了更加便捷的方式进行信息交流和共享,如Flickr和微博。作为一个图片共享网站,Flickr支持用户通过评论的方式与图片共享者进行交流。事实证明,准确识别这些图片所传达的情感在许多研究领域具有重要价值和意义,如计算机视觉和图像美学分析等。社交网络的普及使图像情感分析日渐成为一个热门话题,但是多领域的图像情感分析问题仍然充满了挑战和难题。例如,来自不同领域的图像之间差异较大,其可能拥有相似的视觉特征却传达相反的情感倾向。同时,评论文本和图像属于两种不同模态的数据,差别较大,难以建立直接联系。本文针对多领域图像情感分析问题展开分析研究,建立一个通用的图像情感分类器来解决该问题。现有的图像情感分析方法在多领域图像情感分析研究上都存在一些缺陷,主要表现在如下几个方面。首先,互联网上有多种不同模态的数据可供使用(如文本、音频、视频和图像等),但是这些不同模态数据之间的内在联系较为晦涩微妙,难以发现和利用。其次,互联网上的图像一般来自多个不同领域,如果为每个领域的图像分别训练一个专门的分类器,就需要先为每个领域提供大量的有标签数据集,这需要耗费庞大的人力资源,可行性较差。最后,来自不同领域的图像差别较大,它们可能拥有相同的视觉特征,但传递相反的情感倾向,这导致为一个领域图像训练的分类器可能在另一个领域上的分类表现较差。因此,如何借助多种形式的数据,缩小图像的低级视觉特征和高级情感特征之间的语义鸿沟,训练可以适用于多个领域图像的通用的情感分析方法,是多领域图像情感分析研究领域中急需解决的一个重要问题。针对以上问题,本文提出一个通用图像情感分析模型(GMCIS),可以同时对来自多个领域的图像进行情感分析。GMCIS模型主要包括两个模块:第一个是由长短期记忆网络实现的文本主题分类器,第二个是使用卷积神经网络实现的图像情感分类器。在GMCIS模型中,图像情感分类器是集成方法,由与图像领域个数相等的子分类器部件构成,每个子分类器部件负责一个领域的图像,用于捕捉该领域图像的专有特征。文本分类器作为权重调节器,用于设置不同图像子分类器之间的权重,使模型能够捕获多领域图像的通用特征。GMCIS模型通过加权训练的方法,将两个分类器模块的结果进行融合,得到图像情感类别的预测结果。实验表明GMCIS模型在多领域图像情感分析问题上有较优的表现效果。本文的主要贡献有以下几点:1)引入文本数据,充分利用文本数据和图像内在的视觉特征来进行图像情感分析,丰富了模型的特征维度;2)指出可通过文本主题和图像内容相一致这一特点,巧妙的将文本和图像两种不同模态的数据联系起来,缩小图像和文本之间的语义鸿沟;3)针对评论文本设计多种方案来抽取不同层次的文本特征,获取更为全面的文本表示,提高模型的分类性能。