基于动态场景理解的视频语义理解关键技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:NET399
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,依靠互联网技术的飞速发展和相关软硬件的协同提升,社会已逐渐进入大数据时代,以视频为主的多媒体数据量与日俱增,充斥着人们的生活。多样的视频数据逐渐成为了人们获取信息的一类主要来源。丰富的信息资源一方面给人们生活带来了极大便利,满足人们的精神需求,另一方面海量的视频数据又给人们精确获取信息带来了极大的困难,同时也给监管带来了不小的挑战。而如何利用计算机对视频进行准确的理解,为分类、检索等任务提供有效的参考,是一件非常具有挑战性的事情。视频理解方法多样,其中从语义层面对视频数据进行信息的提取和分析,是当下进行视频理解任务的有效方法。而视频理解方式也有很多,本文通过使用自然语言对视频描述进行研究。本文从语义理解出发,对图像语义理解和视频语义理解分别进行研究,主要工作内容如下:1.本文提出并设计了一种双层LSTM网络,用于解决基于传统编解码架构的图像描述任务中,存在的忽略编码端性能和图像区域与文本描述间的相关性的问题。其中,本文在编码端通过多尺度图像金字塔提升语义信息的提取能力,通过侧链LSTM对卷积网络提取的特征信息进行过滤,同时结合信息增益拉近图像与文本的特征分布,解决了其他模型中图像特征与文本描述分布不对齐的问题。通过多个对比实验,本文提出的方法展示了其在图像描述中具有良好效果。2.本文提出并设计了一种结合控制门结构的循环图卷积网络,用于处理传统模型中特征缺乏语义信息和序列到序列学习中普遍存在的序列特征之间不对齐的问题。其中,本文将场景图这一种图像语义的描述模型作为输入数据,在传统图卷积网络上添加了结合控制门结构的自循环结构,利用控制门进行特征筛选、循环结构进行信息共享和权值共享的方式,实现控制增强与衰减特征信息在网络间的流动,进而不断增强视频序列和文本序列的相关性。实验验证了本文提出的算法的有效性。3.基于上述研究工作,本文设计并实现了一个基于web的自动视觉描述系统原型,通过简单的实现,用户可以在网页端使用本文实现的视觉描述模型。
其他文献
视频相似度计算是对两个视频内容的相似程度量化打分,根据分数的高低判断视频内容的相似程度。视频相似度计算可以为基于内容的视频检索及计算机视觉中的目标跟踪提供基础。
为测定再造烟叶萃取液和浓缩液中固形物含量(质量分数),通过考察优化萃取溶剂、萃取时间、前处理方式等因素,建立了基于气相色谱法(GC)间接测定再造烟叶萃取液与浓缩液中总固
<正>倡导"罗文精神"米卢曾说过一句名言"态度决定一切"。中国石油之所以能跻身世界500强前列,绝对与上至高层领导,下至普通员工的"态度"有关。
芽菜多属速生蔬菜,加之又具有独特的风味和丰富的营养,深受广大消费者欢迎,前景看好。芽菜富含各种矿物元素和纤维素,营养丰富,风味独具一格。红薯芽苗的嫩稍、嫩茎叶、嫩叶
2010年中央出台了《农业机械购置补贴实施指导意见》,该意见使财政补贴政策效益最大化,大幅增长农机补贴力度,进一步调动了农民购买和使用农机具的积极性。随着党和国家对"三
在FL-26y风洞中利用M1.4喷管和开孔壁试验段进行了实现低超声速流场的实验研究工作。通过实验研究验证了利用M1.4喷管在开孔壁试验段上建立起的低超声速流场的流场品质能够满
我国一直都重视农业技术创新的发展,农业技术创新是推进农业现代化、实施“乡村振兴战略”的中坚力量,农业技术创新的发展需要文化的支持。文化记录着农业技术创新的累累硕果,并推动着农业技术创新的发展;农业技术创新促使着文化的更新,但其创新活动又受到文化的制约。农业技术创新是文化生成的组成部分,为文化增添异彩。文化又孕育于农业技术创新的发展之中,为农业技术创新提供软环境和精神力量的支持。文化是人类实践活动所