基于深度学习的视频描述方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:boy1000cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频业务呈爆发式增长,人工利用和管理视频的方式已无法满足业务发展的需要,亟需引入一系列基于计算机的自动化视频分析方法。视频描述方法能够将视频内容转换为易于处理的自然语言描述,是处理视频信息的重要技术。现有基于深度学习的视频描述方法还不能满足实际生产生活的需要,本文针对其中的关键问题进行研究,主要工作概括如下:为了提高视频描述模型对视频主体对象的描述准确性,提出一种基于高层语义的视频帧特征提取器。该特征提取器包括目标检测、目标与特征匹配、特征强化、特征形式转换4个处理环节,在各环节分析视频特殊情况对特征提取的影响并提出应对处理,以提高特征可靠性。其次,因为基于可解读的高层语义信息,该特征提取器可直接根据在具体视频数据上的性能表现调整参数或替换组件,具有较好的通用性。实验结果显示,所提取的视频帧特征有效提高了视频描述模型在MSVD数据集上的性能,表明了利用高层语义信息提高视频描述精度的方法有效性。为了提高视频描述模型对复杂视频对象和场景的描述能力,提出基于特征融合的改进编码器。一方面,利用密集连接网络完善视频各语义层次的视觉特征提取,提高特征的多样性及描述能力;另一方面,归纳深度学习模型中典型的特征融合范式,采用面向视频描述的4种特征融合框架,作为编码器网络结构的改进。实验结果显示,基于特征融合的改进编码器使融合特征兼具准确性和多样性,有效提高了视频描述模型在MSRVTT数据集上的性能,表明了通过特征融合提高模型描述能力的方法有效性。为了缓解循环神经网络运行缓慢,不利于视频描述模型研究和应用的问题,提出基于新型循环神经网络的改进编码器。一方面,利用新型循环神经网络参数和状态精简的特点,减少视频描述编码器存在的计算冗余。另一方面,利用新型循环神经网络的新结构降低模型训练优化的难度,以保持模型的性能。具体选用了SRU和IndRNN两种新型循环神经网络进行实验,实验结果显示,与使用传统循环神经网络作为编码器的视频描述模型相比,基于SRU编码器的模型在性能保持的条件下提高了计算效率,且提高幅度不低于6.4%;基于IndRNN编码器的模型在性能损失不超过11%的条件下提高了计算效率,且提高幅度不低于30.9%。结果表明了利用新型循环神经网络提高视频描述模型计算效率的方法有效性。
其他文献
陕西旬阳泗人沟铅锌矿含矿地层为中志留统双河镇组第二岩性段,围岩为深灰色含炭粉砂质千枚岩、粉砂质千枚岩,属于沉积-改造型(层控-热液型)矿床。含矿构造蚀变带延伸稳定,矿
小学数学是一门重要的素质教育学科,为学生数学思维和能力的培养打下基础。小学数学教师要领会新课改教学理念,在传授数学知识和技能的同时,运用先进、合理的教学模式和手段,
目的优选紫草的醇提工艺,确定最佳提取工艺参数。方法采用HPLC法,以β,β′-二甲基丙烯酰阿卡宁为检测指标,用正交实验法考察了4种因素(乙醇浓度、乙醇用量、温浸时间、温浸次数)对
一、融入学校和社区文化情境多元文化的教师专业发展是指强调立足于学校和社区文化情境需求的发展。教师作为文化的传递者和更新者,其责任在于连结不同而多样的经验,以产生知识
目的研究中国汉族健康受试者中卡马西平治疗相关基因细胞色素P(CYP)3A4*1B、CYP 3A4*1G、CYP 3A5*3和人白细胞抗原(HLA)-B*1502的基因多态性的分布。方法随机抽取187例中国汉
分析阐述Teamcenter Engineering系统客户端二次开发的关键技术,对物料清单(BOM)功能的二次开发进行研究,在此基础上开发了一套企业的BOM应用系统,为Teamcenter Engineering客户端
环境保护部、发展改革委、财政部、水利部近日在京联合召开新闻发布会,介绍《重点流域水污染防治规划(2011年-2015年)》(以下简称《规划》)。"十二五"期间,工业化、城镇化和现代化
上海海关综合业务网络分为海关业务主骨网、EDI外部网、办公自动化网和INTERNET服务几部分,主要用于上海海关总关与36个分支机构的进出口业务和关税征收业务的监管以及上海
大灾有大难。大难有大爱,大爱出文学,面对这场空前的地震,我们的文学表现了高尚的情怀。如果说2008年的五.六、七三个月是热得发烫的地震文学的百日阶段,那么经过这一年冷寂的后半
期刊