基于深度学习的多特征多模态视频描述方法研究

来源 :天津理工大学 | 被引量 : 0次 | 上传用户:zhaojiagu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的不断发展和神经网络强大的学习能力,视频描述作为一项连接计算机视觉和自然语言处理的新型跨模态任务,引起了国内外学者的广泛关注,并且取得了越来越多具有权威性的突出成果。视频描述的目标是为给定的视频片段自动的生成文本描述,数据集通常是对一个短的视频片段进行标注,而密集视频描述是视频描述的一个分支,需要分析更长、更复杂的视频序列,是对一个长视频中的多个事件依次生成文本描述。本文的主要工作将围绕着视频描述和密集视频描述两个任务展开。针对视频描述,本文提出了一种基于动作推理的多特征融合方法,用于优化两个对象之间的交互预测,解决大多数方法产生的动作依赖于物体共现的弊端。本方法明确地针对动作来推理,通过对视频的二维卷积特征,三维卷积特征以及局部特征的提取与建模,捕捉更好的视觉动态,来提高对动作的识别能力,从而进一步提升描述的质量。在公开的MSVD和MSR-VTT数据集上进行了大量的对比实验,实验结果表明本模型可以成功地改善对视频动作的描述,并且在BLEU4、METEOR、CIDEr以及ROUGE-L四项指标上取得了具有竞争力的成绩。针对密集视频描述,本文提出了一种基于事件交互性的多模态融合方法,用于解决同一视频中的多个事件描述没有连续性、相关性和缺乏捕捉视频中音频信息的问题。当前密集视频描述任务的步骤是首先在一个长视频中定位出包含的事件,然后对每一个事件进行视频描述,这样就可以生成每个事件的描述,但是这样生成的描述缺乏事件之间的交互。同一个视频中的多个事件之间应该是有联系的,而不是相互独立的。针对这个问题,本文提出了事件交互性的方法,在事件定位阶段对不同的事件之间进行时序和语义上的建模,捕获不同事件之间的关系,从而生成更加一致和连续的描述。除此之外,还提取了视频的视觉和音频特征,从多模态融合的角度进一步提升描述的准确度。本文在公开的数据集中进行了充足的实验,在Activity Net数据集上达到了9.64的Meteor得分,比前沿模型MDVC提升了31.8%,取得了可与当前最新模型竞争的性能。
其他文献
学位
学位
为了提高轧机液压伺服系统控制精度,提出了基于滑模控制器和抗扰动控制相结合的控制方法,其在抖动衰减和鲁棒性方面都优于其他控制器。首先分析了轧机AGC控制原理,并建立了控制系统模型。在此基础上设计出滑模控制器,并验证了其对外部干扰以及负载变化的不确定性情况下的控制精度。最后,在闭环控制系统上加入一个状态观测器,实现输出反馈控制。通过仿真,证明了该控制方法的有效性和稳定性。
学位
经过多年发展,标杆房地产企业早已布局全国,对处于成长期的房企来说是一大挑战。文章以KQ地产为例,运用SWOT分析法对KQ地产的营销环境进行分析,归纳其发展战略。KQ地产采取的全国化布局战略,可以分散风险、扩大规模以及增加经济效益,同时也带来管理成本的上升和组织管控的压力。
截至2020年,我国塑料领域的产品产量又创历史新高,达到774.8万吨,标志着我国已由亚洲塑料工业大国迈向世界塑料工业大国行列。随着我国塑料产业链的逐渐延伸及经济全球化趋势的逐渐成形,我国塑料行业的进出口贸易量呈现逐年上升的趋势。面对广阔发展前景,塑料行业对人才有更高要求。塑料企业要求相关从业者具有较高的专业知识水平和英语文化素养,
期刊
学位
铝电解电容器(Aluminum electrolytic capacitor,AEC)被广泛应用于交流滤波领域,但其本身存在体积大、容量低、质量大等问题,这极大地阻碍了电子产品的小型化和轻量化发展。而超级电容器(Supercapacitor,SC)是一种具有高比电容,小体积的新型储能器件,很有希望解决这一难题。传统超级电容器电极主要为多孔的活性炭,其曲折狭窄的孔结构限制了电解液离子的扩散速率,导致
以步态特征时间序列信号为基础的步态分析是对人的行走情况与健康状态进行检测的重要手段,是人体步态分析与分类领域的一个研究热点。然而人的行走过程十分复杂,以单次行走的整体数据为最小研究周期来分析步态特征会导致细节的丢失,无法实现对步态信号非线性特性的深层次挖掘。这就使得传统的静态特征研究对人行走过程的表征能力有限,对步行的变化趋势、局部偶发情况及周期性变化特点等问题的处理十分乏力。本文研究采用拓扑数据
学位