论文部分内容阅读
随着5G和VR(Virtual Reality)的发展,基于全景内容的应用受到广泛关注。研究用户对于全景内容的感知和情绪反应对多媒体处理和用户体验质量评估至关重要。眼球的运动特征在不同全景内容情绪刺激下会发生显著变化,且眼动监测具备便捷、真实的特点,在情绪识别研究领域备受关注。当前基于全景内容诱发下眼动监测的情绪识别研究存在以下问题:(1)全景内容下带有情绪标签的眼动数据集较少,相关研究常利用头动代替眼动数据;(2)研究表明二维内容下眼动和情绪存在联系,但三维全景诱发态眼动模式与二维静态内容并不同,全景图片自由浏览模式下如何提取眼动特征并分析眼动偏差与情绪关系亟待研究;(3)以往研究多基于原始眼动数据,缺乏眼动行为特征分析,也未能充分挖掘眼动序列时序关联信息。针对以上问题,本文进行了如下工作:(1)基于LS2N实验室创建的全景图片-显著性数据集,选择刺激素材并建立了一个包含情绪标签(积极、中性、消极)的360度全景图片-情绪-眼动数据集,包含基于HTC Vive头显和SMI Eye-tracker设备记录的19位受试者自由头动和眼动数据。(2)根据虚拟现实头显的交互特点,本文提出了全景图片自由浏览模式下的眼动追踪数据处理框架,利用视口映射以及基于时间和速度阈值的方法提取眼动行为特征。经过ANOVA分析和Dunn多重比较分析表明在三维自由浏览模式下消极图片得到的凝视点比中性图片少,这与静态图片观察结果存在差异,推断全景图片引起的不适感会带来更多的回避眼动行为,具体表现出更长更大更快的扫视。(3)本文对不同算法模型和不同眼动特征的情绪三分类进行了充分实验,并验证了眼动行为特征的有效性。其中使用SBFS-GBDT方法在积极消极场景二分类实验中能获得79.12%的准确率,优于传统方法。(4)利用眼动序列相互依赖特性,构建基于眼动扫描路径的GRU(Gated Recurrent Unit)算法,采用切分序列方法,有效利用上下文信息,在积极消极二分类中较先前算法能提升2.4%,验证了算法的优越性。本文进行了全景图片下基于眼动的情绪分析与识别研究工作,所构建数据集和算法为为未来研究提供参考,并可能推动全景内容下基于眼动情绪识别的发展。