面向影视作品的人眼注视点预测模型

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yangyuxxxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着精神生活的日益丰富,人们对观看电影、电视剧的娱乐需求逐渐增加,以微电影、情景剧为代表的网络短视频也呈爆炸式增长。在这一环境下,预测观众在观看影视作品时视线聚焦的位置变得十分有意义,例如,对于广告公司来说,通过视频中的注视点分析,可以将广告产品在视频中的位置设定的更佳合理。依据观众是否提前知道影片的相关信息,观看方式可分为自由观看和视觉问答两种。现有的动态场景人眼注视点数据集几乎都不是针对影视作品的,缺少其独有的特效、长镜头等视觉因素,且大部分都是自由观看下采集的数据,没有考虑到提前给出被试者先验信息。我们的研究发现,现有的自由观看显著性模型在显著物体出现、消失或多个显著物体同时出现时预测结果不佳;而视觉问答数据集通常采集难度大、数据量小,现有的视觉问答模型难以适应小型数据集。针对以上问题,本文以影视作品的人眼注视点预测为研究对象,具体研究内容如下:(1)影视作品眼动数据集Video VFQE(Visual Free-viewing and Visual Questiondirected Eye-tracking Database for Videos)。我们从互联网采集动态刺激并设置对应的问题,分别在自由观看和视觉问答下开展眼动实验,经过数据筛选和处理,制作了包含自由观看和视觉问答两部分的数据集。通过对眼动数据的可视化,我们发现自由观看下物体对人类视觉系统具有导向性并分析了视频情绪对人类的影响,我们还揭示了视觉问答中被试者回答与注意力的关系。(2)自由观看下的影视作品人眼注视点预测模型Movie FV(Fixation Prediction Model for Movie in Free Viewing)。模型模仿了视觉过程,结合自顶向下和自底向上的注意力,共分为三个模块:视频帧时序信息模块,以CNN-LSTM框架为基础,负责提取视频帧的基础特征并通过conv LSTM建模时序特性;上下文信息提取模块,通过采用结合空洞卷积的Inception网络,多尺度地捕捉帧内全局和局部的上下文信息;显著图融合模块,是一个由VGG-16改造的决策性度量网络,用于度量两种显著图的重要性,生成融合权重。在自制数据集上,我们将本文模型与其他5种现有模型进行对比实验,实验结果表明,我们的模型预测结果更加准确。(3)视觉问答下的影视作品人眼注视点预测模型Movie VQA(Fixation Prediction Model for Movie in Visual Question Answering)。我们在编码器-选择记忆框架的基础上,设计了一种将视频通用特征和影视作品专用注意机制结合的模型。我们在特征提取器中增加了神经注意模块以模仿人类视觉注意机制,通过单独对神经注意模块微调,得到了适用于我们自制数据集的迁移学习模型。实验证明,在自制视觉问答数据集中,本文模型效果与其他3中现有模型相比,预测结果更好。
其他文献
随着人工智能的快速发展,深度学习技术在物联网行业的应用不断繁荣起来。SAR卫星图像检测,行人检测,自动驾驶等等的应用层出不穷。为了适应高准确率的检测效果目标检测网络的层数被设计的越来越深,与此同时带来的计算量也变得大了起来。我们知道目标检测算法从开始的设计到实际部署每一环都是至关重要的,不仅仅是以计算量的大幅度增加为代价来提高检测的准确度,还要顾及到目标检测算法部署到实际生活场景中的所遇到的困难。
单闭链移动机器人结构简单,在应用过程中具有外形轻巧,便于携带,易于驱动等优良性能,广泛应用于复杂的地形环境。本文结合四边形移动机构和连杆式滚动机构的性能特点,提出了两款可转向四边形滚动连杆机构,并围绕两款机构进行了设计研究、理论分析、运动仿真、样机制作、实验测试等。首先,提出一种基于U型副的4U四边形滚动连杆机构,该机构可以实现向任意方向行进。规划了4U四边形滚动连杆机构直行和转向两种滚动运动方式
序列决策问题的求解能力是人工智能的核心要素之一,强化学习是一种序列决策问题的求解方法。无模型的强化学习算法在诸多应用中获得了显著的成果,但需要与环境进行大量交互以获取足够的数据进行策略的训练。而基于模型的强化学习算法通过利用无模型强化学习算法难以利用的低奖励数据,学习得到环境的动态模型,使策略使用模型模拟的数据,从而大大减少与真实环境所需的交互数。基于模型的强化学习由最优控制领域发展而来,原本用于
成人自评(Adult Self-Report,ASR)量表是一套针对成人性情与心理健康的评估量表,主要包括成人焦虑、注意力、内向性格、攻击性行为和侵入行为等方面的自评,目前已被心理学和精神疾病研究领域广泛接受。ASR分数的测定目前还主要依赖于问卷的主观评分,对ASR分数的客观测定将有利于推进对成人心理及精神健康状况的精准判定。静息态磁共振影像(resting state functional Ma
脑肿瘤是一种全球死亡率较高的疾病,对病变组织范围的界定是对脑肿瘤定量评估和制定治疗计划的一个主要挑战。近年来,基于核磁共振成像(Magnetic Resonance Imaging,MRI)的脑肿瘤分割研究因其无创成像和良好的软组织对比度而受到越来越多的关注。核磁脑肿瘤分割是指,基于脑部核磁共振影像,将坏死细胞、水肿、活跃细胞从脑脊液等正常组织中标记出来,从而确定肿瘤范围的过程。目前,常规临床中采
随着我国经济快速发展,交通拥堵问题日益严重。为改善交通拥堵现状,国内外学者积极寻找有效的对策,其中一种有效方法是建立交通出行需求预测模型,分析和掌握居民出行选择的一般规律,进而有效管理城市居民的交通出行。出行目的是引发交通需求的直接原因,研究出行目的对分析居民出行行为具有重要作用。随着机器学习的发展,全连接神经网络展现出其强大的自主学习能力和精准的预测能力,给非集计模型在交通出行行为领域的研究提供
随着人工智能、机器人技术的不断发展和变革,机器人正逐渐进入人类生产生活的各个领域,机器人操作系统(Robot Operating System,ROS)因此得到广泛的应用并受到学术界和产业界的共同关注。其中,ROS安全测试与验证成为机器人操作系统研究领域的热点问题之一。通信机制作为ROS最基础的功能,在保证系统的正确性和安全性方面具有不可替代的作用。进一步说,ROS安全不仅应当从仿真和测试出发来进
移动机器人已广泛应用在医疗服务、餐饮行业、物流运输等领域,先进的机器人技术逐渐代替人工作业。移动机器人的路径规划与轨迹跟踪是机器人自主导航的关键技术,其运动路径是否平滑影响着机器人的移动效果,能够生成符合车辆运动学的可行路径并且稳定跟踪控制是实现的移动机器人自主导航的基础。本文从移动机器人的实际问题出发,以松灵SCOUT通用型底盘为实验平台,在工控机上安装Ubuntu系统,搭载16线激光雷达和IM
随着移动机器人技术的飞速发展与相关研究的逐步深入,移动机器人拥有了更加广阔的应用背景,由此对其结构和功能提出了更高的要求,期望移动机器人具备一定的环境适应性以应对复杂的工作环境。移动机器人的越障能力测试是移动机器人研究过程的关键一环,然而在传统的越障能力测试试验当中,常规方法是让移动机器人跨越特定参数的障碍试验台,再通过人工判定的方式测试其越障性能。由于特定参数的障碍试验台不能根据越障试验需求快速
随着现代电力系统的快速发展,新能源大规模并入电网,特高压交直流混联趋势日加明显,电网互联程度日趋紧密,这使得电力系统规模不断扩大,复杂性大幅提高,愈发接近安全稳定运行极限。且现代电力系统高维非线性,故障发生速度快,响应时间短,这无疑加大了暂态稳定预测的难度。为给故障后的紧急控制留出充足的时间裕度,亟需一种更加快速准确的暂态稳定预测方法。近年来,以数据挖掘和机器学习为代表的人工智能领域得到了迅速发展