基于深度学习的短视频内容理解

来源 :北京工商大学 | 被引量 : 0次 | 上传用户:chenshunsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信技术的飞速发展,以及手机,平板电脑等移动设备的广泛使用,带火了以抖音,快手为代表的短视频平台。本文基于短视频的应用场景,针对短视频的特点,对短视频进行研究。主要针对短视频中的场景识别,行为识别以及联合特征学习展开研究,论文的主要工作和成果如下:为了解决短视频的场景识别问题,以及短视频场景中出现的模糊,抖动等问题,本文提出一种基于VGGNet的深度融合网络,首先,利用VGGNet16对全局特征进行学习,利用VGGNet19对图像细节进行学习,并将学习特征利用加权平均的方式进行融合;对于模糊问题,利用深度融合网络对模糊特征进行提取,利用低分辨率到高分辨率的方法合成模糊图像,对模糊图像进行上采样,并利用欧氏距离损失,计算模糊图像和清晰图像的相似性,从而对模糊图像进行恢复。在公开数据集2017-AI-Challenger-scene-classification中top3的结果为92.2%,在Charades短视频数据集中top3取得了78.9%的结果,证明了本文提出的方法在场景识别中有很好的效果,此外,通过对模糊图像的识别结果,本文所提出的方法有较好的鲁棒性。为了解决短视频中的行为识别问题,提出了一种基于互信息熵的关键帧提取算法,利用滑动窗保留帧间的时序信息;在关键帧提取的基础上,提出了一种基于可变卷积网络的双流CNN方法Deform-GoogLeNet,利用双流网络分别提取图像的RGB特征和光流特征,并利用加权平均的方法得到行为识别的结果。在公开数据集Charades数据集上的实验结果高于同类融合算法,证明了本文提出算法在短视频行为识别中有很好的效果。为了进一步提高短视频中的行为识别问题,提出了一种基于字典学习的场景特征和行为特征的联合学习模型,将场景特征作为上下文信息,利用字典学习和稀疏表示方法,能够更好地解释具有决策性的特征,从而提高行为识别的效果。通过在Charades中和厨房相关的数据集上进行的仿真实验,所提出的结合场景信息的行为识别算法表现要好于单一行为识别方法,证明了所提出方法的有效性。
其他文献
近十年来,随着无线通信的飞速发展,对频谱资源的需求也急速增加,从而导致本来就匮乏的频谱资源变得更加日益紧张,这一问题成为阻碍无线通信技术发展的最大因素。在当前采用统
在人类产生语音时,情感的表达这一重要过程中,人类大脑中涉及情感语音生成和情感语音理解区域的控制机理和相关功能是非常复杂的,在这之中包括了许多复杂的神经处理过程,而建
提高涡轮前温度是进一步提升航空发动机性能的关键因素,受限于材料的耐温极限,发展先进的涡轮叶片冷却技术显得尤为迫切。本文立足于此,面向涡轮叶片内部冷却技术,通过实验和
植物油脂经加氢脱氧制取可再生的柴油类烃获得了广泛关注,其中催化剂是实现高效加氢脱氧的关键。金属Ni基催化剂活性高、成本低廉,但同时存在C-C键氢解和甲烷化活性高导致碳收率低、耗氢量低等问题。本文通过引入金属Ga调变Ni的几何和电子结构,抑制了金属Ni的C-C键氢解和甲烷化活性,提高了C收率。为了解决通常加氢脱氧时外部供氢存在的制氢流程长、生产操作不安全等问题,探索了以甲醇为供氢剂时Ni-Ga双金属
水下传感器网络由固定在海底或者悬浮在水中的传感器节点组成,节点之间相互通信并构成一个自组织网络。节点上搭载有专门的传感器,负责监测收集某一片海域的温度、深度以及其
磁感应游离磨粒线锯切割技术是一种新型的且很有前途的硅片切割技术,具有切割范围广、切割效率高、能源消耗少、易控制等优点,因此,磁感应游离磨粒线锯切割技术的不断发展,将
近年来基于异构众核架构的高性能计算机系统取得了巨大的成功,与硬件技术不断高速发展相比,高性能应用软件的研发受异构编程模型和并行运行效率的限制,发展相对滞后。作为电
本文为一交替传译实践报告,以笔者在河南大学担任的口译工作为报告对象。全文主要分为两部分。第一部分是兰斯·斯特拉特教授所作的媒介生态学讲座原文及口译文本,译文部分约
随着经济的发展,中国中小企业的发展遇到了瓶颈,主要原因是融资渠道过于狭窄,大多数中小企业还是以银行的贷款为主要的融资手段。然而在海外资本市场上,私募股权已经成为中小
数据存储是各种应用的基础。随着数据量的增长和用户对存储的扩展性、安全性、可用性、可持续性等需求的提高,传统的存储技术已无法满足这些要求。近年来分布式存储技术将数