基于自监督学习的视频预测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:XFZWY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一个深度卷积网络往往建立在大量的数据基础之上,相应的人工标注工作是惊人的,自监督学习的学习方式提供了一个解决方案,让模型自动挖掘数据中的特征。视频数据本身具有较强的时序信息,视频预测是一个依赖于数据时序信息的任务,利用时序信息分析图像帧中对象的变化趋势是一个视频预测模型必须具备的能力。此前的视频预测方法大多只能在相邻时间步的时空特征获取预测的特征依据,导致模型容易在靠后的时间步预测中丢失预测对象的形状。其次,LSTM的主要架构的遗忘门控在预测过程中表现出对于更新信息部不敏感,使得模型很难学习到视频数据中的相对复杂的变化信息。针对基于深度学习的视频未来帧预测模型进行了深入研究,在LSTM单元基础上进行改进设计了一种新的基于注意力机制的网络模型,该模型相比于此前其他视频预测模型的优点在于没有利用长短时记忆网络中的门控机制提取时空信息,而是借助语言模型领域中的注意力机制进行特征提取,有助于模型对于视频数据的全局信息进行捕捉。另外还就基本的长短时记忆网络单元对遗忘门控进行了改进,通过差分机制提取相邻时间步中的变化部分指导模型围绕动态信息进行建模,提高模型对视频数据中复杂信息的学习能力。最终将设计的模型与此前的表现不错的工作分别在几个视频预测领域常用的数据集中做了定量和定性的对比,展现了较好的效果。此外,利用视频预测任务自监督学习的任务性质,将训练好的视频预测模型加以改造最终投入对行为识别任务中,相对于常见的基于卷积网络和循环神经网络的行为识别的算法展现了更好的性能。
其他文献
随着企业需要存储的数据量不断增长,同时为了满足不同需求,各种新型数据库应运而生:如针对数据结构灵活的非关系型数据库(Not Only SQL,No SQL)等。这就要求测试工具能针对多种数据库性能测试。在数据库性能测试工具中,负载发生器模块的实现良好与否,决定了测试工具能否生成用户指定的负载。然而,目前已有的负载发生器实现还无法完全满足实际需求:如部分负载发生器的设计只针对于某一类型的数据库等。因
学位
巨细胞病毒(cytomegalovirus, CMV)感染在免疫功能严重缺陷的艾滋病(acquired immunodeficiency syndrome, AIDS)患者中相当普遍,可累及全身多个器官系统如眼部、肺部、消化系统以及神经系统等,表现为不同类型的巨细胞病毒病(cytomegalovirus disease, CMVD),播散性感染亦相当常见,具有高致残性和高致死性的特点.与免疫正常人
期刊
近年来,智能手机的普及使得基于位置的服务(Location-Based Services,LBS)得到极其广泛的应用。但是,由于可能存在不可信的位置服务商对用户数据的非法利用,用户如果在使用位置服务时连续发布不经保护的位置数据流,会对用户的社交关系隐私造成严重的威胁:利用两个用户发布的共同出行轨迹数据,容易分析二者之间是否存在社交关系。针对上述隐私泄露问题,首先,对于单个位置的扰动算法,在满足本地
学位
随着计算机网络的发展,应用信息是否安全与国家安全,个人隐私息息相关,操作系统为应用软件提供了运行环境,它的安全特性至关重要。检测安全特性是实现安全操作系统的重要环节,目前已有的检测工具检测点都是零碎的,而且绝大多数都是测试员手动执行,效率较低且容易出错。所以针对操作系统应用支持安全特性设计一个测试工具是很有必要的。针对现有国家安全标准中对应用支持的要求将测试项分为三大类:独立运行环境的检测,应用安
学位
图像拼接技术被广泛应用于地质勘测、遥感图像处理、计算机视觉、医学图像分析、虚拟现实等领域,随着无人机应用的发展,无人机航拍图像拼接技术成为研究热点。本文对无人机航拍视频图像拼接方法进行了深入研究,主要内容如下:(1)为获得高质量的视频关键帧,设计了无人机航拍关键帧提取算法。该方法首先通过KLT(Kanade-Lucas-Tomasi)算法以及无人机航拍的航带特征将原始无人机航拍视频分割成子视频;接
学位
计算机应用技术飞速发展,各个行业智能化科技化进程也在不断进行,多变的数据使用场景和日益增长的数据处理量让企业对数据库的要求也在增加。其中对数据库的在线事务处理(Online-Transaction-Process,OLTP)性能要求也是选择数据库的关键因素之一,因此,设计与实现一个能让用户根据他的业务需求来评价数据库系统的性能的测试工具就显得非常重要。TPC作为事务处理领域权威机构,其发布的TPC
学位
近年来,随着抖音等移动应用的广泛使用,交互式推荐系统受到了广泛关注。传统的推荐系统通常关注于预测用户在特定时间点的兴趣,通常是下一个时刻,而在交互式推荐中,系统不仅需要关注用户当前兴趣,还需捕捉用户由于当前推荐产生的兴趣变化,进行长远规划,增加用户使用时间,获得收益。因此传统推荐方法无法适用于交互式推荐场景,而强化学习依靠智能体与环境不断进行交互自主学习,符合交互式推荐形式。但强化学习应用于推荐系
学位
互联网技术的快速发展产生了海量数据,而数据库管理系统作为管理、储存数据的核心,其安全性备受关注。客体重用指在系统运行过程中,内存、磁盘等客体资源在被主体A释放并再分配给主体B时,主体A残留在客体中的数据可能被主体B获取,从而造成主体A隐私数据的泄漏。现有数据库客体重用测试工具只能对运行于Windows的数据库进行磁盘客体重用测试,因此研究更加全面的数据库客体重用测试工具具有重大意义。针对信息安全标
学位
随着软硬件技术的发展,大数据相关技术的爆炸式增长,对大数据系统的分析技术也在不断更新,交易处理绩效委员会TPC于2016年为大数据分析系统提出了新的基准TPCx-BB,模拟了零售商场景线上与线下业务流程,并提供了与之对应的测试工具包,用于测试CDH、HDP等商业开源版大数据系统的离线分析处理能力,衡量不同大数据平台的性价比等指标,为用户选择合适的大数据产品提供了依据,得到了业界的认可,但工具包本身
学位
随着5G技术和IoT的发展,智能家居开始进入越来越多的家庭。智能家居通常通过视觉的方式获得感知家庭环境或者家庭成员的能力,但是视觉的方案对于家庭环境存在着局限性。随着调频连续波技术的发展,将毫米波雷达用于家用环境感知越发变得可能。构建了一种通过毫米波雷达采集数据,进行室内环境的人体跟踪和步态识别的系统。从毫米波雷达的原理出发,设计了毫米波雷达点云获取模块,并基于对毫米波点云的特性的分析,设计了对点
学位