论文部分内容阅读
近些年,视频传达出的情感正逐渐成为用户选择和观看视频的一个重要参考。随着视频数据量的激增,视频情感内容自动标记变得愈加重要。对于用户来说,如果海量视频能够被自动标记其情感类别,用户可以方便地使用情感关键词来检索视频。对于商业来说,视频网站可以针对用户喜好,为用户推荐相关的情感类视频。因此,对这一问题的探索将使用户和商业都能从中获益。隐式视频情感标记是近些年兴起的一种情感内容分析方法,该方法主要使用观看者的生理信号和自发性可视行为作为分析数据,进而通过分析该数据识别用户观看视频时的情感类别,该类别被作为视频的情感标记。心理学研究发现,人在观看情感图片时的瞳孔孔径变化可以反映观看者的情感状态。虽然瞳孔反应在之前已被用于视频情感内容分析,但是实验结果并不够好,其中一个重要原因是不同个体间的瞳孔孔径差异会显著影响情感识别的准确性。为了解决该问题,我们为所有个体定义了统一的瞳孔孔径基准值计算公式。基于该公式,可以为每个主体计算出其特有的瞳孔孔径基值,该值在减小瞳孔孔径差异中起着至关重要的作用。瞳孔孔径变化序列是时序信号,但在之前的研究中并未考虑信号的时序特性。因此,我们构建了瞳孔孔径变化的序列特征,并运用循环神经网络(Recurrent Neural Network,RNN)网络对其中的时序关系进行建模。虽然RNN能够学习到序列数据中的时序表征,但是训练RNN需要大量的训练样本。否则,RNN模型会因训练不充分而导致情感识别精度较低。因此,我们同时集成了在少样本情况下也有优异表现的支持向量机(Support Vector Machine,SVM)作为另外一个分类器,SVM使用全局特征进行训练。RNN和SVM都会输出不同情感类别的预测概率。最后,将这两个模型的概率估计结果进行求和平均,并输出最终的情感识别结果。在标准数据集MAHNOB-HCI上,与现有的最好方法相比,我们提出的方法取得了更好的实验结果。