基于特征重构及语义引导的视频自动描述方法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:onewxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海量视频数据的爆发和人工智能技术的发展,视频描述任务逐渐成为研究热点。视频描述技术在生活中有着广泛的应用前景,如体育视频解说,电商商品描述,视频标题生成等等。在视频描述领域中,基于编解码结构的序列学习以及融合注意力及属性等信息的视频描述方法层出不穷。但这些方法存在两个严重的问题:一是视频时序建模表达力不足;二是忽视了视觉与语言的对齐。本文围绕上述两个问题,开展了以下研究:(1)提出一种基于多特征融合及解码重构的视频描述方法。该方法采用空间特征和运动特征融合的方式对视频进行时序建模,从而生成有判别力的视觉表达;同时采用了特征重构的方式优化解码器的学习能力,使其获取更多的从视觉到文本语言的映射关系,从而加强视觉与语言之间的语义关联。(2)提出一种基于多模态特征表示及语义引导的视频描述方法。该方法融合音频、视觉特征等多模态信息去获取视频中的内容,丰富特征的表达能力;进一步设计了一个语义信息编码模块,生成视频中不同视觉实体之间的交互关系;最后构建了多模态注意力机制来引导解码器在不同时刻选择不同的特征或语义信息,提升视觉与语言的关联程度。本文提出的两个方法在视频描述任务的数据集MSVD以及MSR-VTT上进行了大量的实验。实验结果表明本文提出的方法具有良好的性能,能生成高质量的描述。
其他文献
布谷鸟算法(Cuckoo Search,CS)作为一种新兴的群智能算法,目前已在各个领域得到了广泛应用,已被证明是一种有效的问题求解方法。布谷鸟算法虽然具有结构简单、控制参数少等优点,然而该算法在处理一些复杂问题时会存在过早收敛、局部搜索能力弱等问题。针对布谷鸟算法的不足,本文提出的算法对原始的布谷鸟算法变异策略进行了改进,并在标准测试函数和相关优化问题上验证了算法的有效性。本文主要研究内容如下:
学位
安全有效可共享的电子医疗病历系统是整个社会急需的,如果把区块链技术和电子医疗病历相结合就可以解决电子病历存在的共享困难、数据丢失、容易被篡改等关键问题,从而保证患者数据的安全性和隐私性。然而基于区块链技术的电子医疗病历对于系统中的执行效率有较高的要求,因此要想将此电子病历实际应用到生活当中则需要研究如何提高共识系统的共识效率。共识机制作为区块链技术的核心,整个共识系统的效率则取决于共识机制。但是现
学位
数据聚类是计算机视觉、数据挖掘、信息检索和模式识别等领域的基本无监督学习任务。为了更好地拟合非高斯数据尤其是正数据向量,并有效解决有限高斯混合模型的参数估计和模型选择困难的问题,本研究将基于逆贝塔刘维尔(Inverted Beta-Liouville,IBL)混合模型进行建模方法分析。首先,提出了一种具有Dirichlet复合多项式先验的有限IBL混合模型。在模型中,本文假设上下文混合比例服从Di
学位
随着互联网的飞速发展,微博、脸书(Facebook)等网络媒体平台已经成为反映社会舆情的重要载体。国内外网络舆情事件频发,网民发布、参与扩散(主要指转发)的信息不仅反映了网民对社会的态度和诉求,而且影响着舆论的发展。分析事件的传播趋势、预测事件的扩散过程对于维护社会安全稳定具有重要意义。已有的相关研究分析不够细致且不够深入,主要存在以下两个方面的问题:(1)采用仿真的离散数据进行传播扩散分析,与真
学位
视频中的人体行为识别是计算机视觉中一项非常重要的任务,其在人机交互、智能视频监控、康复医疗等领域发挥着重要的作用。随着深度学习的崛起,大量基于深度学习的方法应用于行为识别领域,并取得了不错的效果。但是现实生活中场景更加复杂,如何对数据进行有效处理并提取具有判别力的特征仍然是目前行为识别领域尚未完全解决的问题。因此,本文主要从增强特征学习的完整性和判别性两个方面展开深入的研究:1)提出了基于一致性约
学位
随着制造业市场结构由以产品为中心转向以产品服务为中心,消费者市场环境、企业竞争模式等发生变化。导致大量的企业在实际进行服务化转型中遇到了诸多挑战。如,(1)以产品服务为中心考虑产品服务价值水平如何影响产品服务供应链上决策双方定价、收益等问题;(2)在市场消费者影响下,产品服务供应链上决策双方的相关决策如何受决策者风险规避因素的影响;(3)伴随日趋网络化的发展趋势,产品服务供应链网络各成员收益如何受
学位
随着信息时代的高速发展,如何在用户和信息之间建立一种有效且直接的联系变得尤为重要。信息推荐应运而生,它着力解决信息迷航、信息超载等问题。目前,传统信息推荐算法主要存在以下三个方面的问题:(1)浅层模型挖掘不出项目的隐层特征,也无法对用户特征进行细致深度的刻画;(2)社交网络中蕴含了大量复杂的行为关系信息,作为网络用户特征中重要的部分之一却常常被忽视;(3)数据稀疏和冷启动问题在一定程度上影响了推荐
学位
视觉是人类感知和理解外界信息的重要方式,计算机视觉是对建立人类视觉观察系统与机器进行交流的桥梁,用于辅助工业化社会的生产生活。利用计算机对视频序列的目标跟踪是当前计算机视觉方向的一个重要研究内容,具体表现形式为在多帧连续的图像序列中估计出当前目标的具体位置,并以此确定出目标的运动轨迹信息,实现对有效目标的运动行为分析。经过诸多优秀专家学者们在目标跟踪领域的大量研究,目标跟踪的相关技术已经取得了长足
学位
随着社会发展和科学技术水平的提高,现实生活中的优化问题规模越来越庞大,搜索空间越来越复杂,求解难度也越来越大。这就使得传统的数学优化方法,如牛顿法、最速下降法、共轭梯度、凸优化等,无法对其进行有效求解。对于此类问题,进化算法凭借着操作简单、高鲁棒性、搜索力强、且不依赖求解问题信息的优点成为了一种高效的解决方案,并已被成功应用于求解许多复杂的优化问题。尽管进化算法发展至今已获得了极大的成功,但是,目
学位
细粒度图像识别专注于同一大类的不同子类的图像目标。随着图像识别技术在各个领域落地,对物体类别精细划分的需求日益凸显,细粒度图像识别逐渐成为研究热点。针对细粒度图像识别中类间差异小类内差异大的难点,目前的研究工作主要关注如何学习图像的判别特征,主流的研究方向包括定位判别区域、学习细粒度特征和数据增强策略。本文从定位判别区域和数据增强策略两个方向开展了以下研究:1)提出了一种基于通道注意力机制和区域增
学位