基于卷积长短时记忆网络的视频预测研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:s5871212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频预测技术即给定若干长度的连续视频帧,预测后续视频帧,是计算机视觉领域的重要课题之一。视频序列中的复杂运动以及大量的空间信息给视频预测带来了很大的挑战。一方面,传统的循环卷积操作难以提取复杂的时空变化特征;另一方面,在长时间视频预测任务中,预测帧的空间细节难以保留。导致预测帧内主要对象的动态轨迹和静态细节失真。本文就广泛使用的卷积长短时记忆网络(Conv LSTM)模型分析可能导致该问题的原因,并提出更有优势的视频预测模型,以提高预测的精度。针对传统视频预测模型难以表征时变特征的问题,本文考虑利用更加灵活高效的特征提取方式,以提高门限函数对时变信息的拟合能力。本文提出了一种基于自适应LSTM的视频预测模型。在传统的卷积LSTM架构的基础上,用可变卷积替换卷积LSTM中与隐变量有关的传统卷积操作,实现隐状态与输入的信息对齐,提高细胞状态更新的精确度;并在经典的L2损失函数的基础上加入像素梯度损失,缓解L2损失带来的视频帧模糊问题。在Moving MNIST数据集上的实验表明,通过可变卷积提取时变特征,可以提高细胞状态更新精度,进而提升模型的长时间动态预测能力。针对视频预测模型中难以保持空间细节,造成图像失真的问题,本文在自适应LSTM的基础上加入了用于保留空间信息的空间细胞状态,在不产生过拟合情况下增加循环单元内的参数量以适当提高预测模型的拟合能力,且空间细胞状态与时间关联性不高,更侧重于提取和保留空间细节。此外,根据多尺度自编码器结构对空间信息的流向进行微调,使之能够与隐藏层同时在不同单元层流通。在SRAD2018和Moving MNIST两种数据集上的实验结果表明,额外增加对时间不敏感的空间参数,可以提升模型对空间信息的提取和保留能力,进而有效提升预测帧的清晰度。
其他文献
随着物联网技术的迅速发展,室外定位已经无法满足人们的需求,室内定位技术受到大量关注,其中射频识别(Radio Frequency IDentification,RFID)技术以其成本低、非视距、非接触
近年来,随着互联网和移动设备的迅速普及和发展,图像成为了人们记录分享生活的重要手段,越来越多的图像数据在网络上出现和存储。伴随着刷脸时代的到来,人脸验证已经成为了人们日常身份验证的重要手段,同时,越来越多的人开始关注上传至网络上的包含人脸的照片的安全。因此,急需采取措施保护图像中的人脸隐私,防止出现人脸隐私的泄露和滥用。人脸隐私保护主要是为了去除图像中的人脸所包含的显著身份特征,消除人脸和其所有者
应变传感器是将机械应变转换为电信号的设备,在人体运动检测,电子皮肤,智能电子等领域有很大的前景。然而,大多数应变传感器的材料有很多缺点,例如过于柔软,刚性太大,对环境
随着全球化的推进,纳米技术彻底改变了当今科学家和工程师对智能材料的看法。纳米技术不仅提供具有低成本和高效益的工业流程,而且还提供原子和分子的精确设计和操作,以及对
中国农业科学研究越来越重视农业的数字化、智能化和仿真化,数字农业和智慧农业成为了未来发展趋势。实现数字农业和智慧农业的基础是获取作物生长相关参数信息,包括作物行信
定位技术是无线传感器网络关键支撑技术之一,节点的位置信息在诸多应用领域起着至关重要的作用。目前,大多数基于移动锚节点的定位算法都不能实现未知节点的精确定位,且都假
互联网推动了物流产业网络化的进程,而云柜在物流产业追求高效便利的配送方式中应运而生,以云柜为主体的末端配送形态不仅缓解了末端投递站运营压力,提高了物流运转效率,更便
自上世纪80年代起,以民事庭审方式改革作为起步点,民事审判方式改革在我国逐步开展,成为我国司法制度改革的重要一环。随着改革的深入,民事审前程序逐渐显现出其在审判方式改
我国人口老龄化日趋严峻,随着老年群体年龄的增加,身体机能逐渐下降,患病人员数量逐日增加,老年慢性病问题也越来越突出。慢性病病程长且难以治愈,对老年慢性病患者的生活造成严重影响,由慢性病导致的系列问题成为了老年慢性病患者面临的最大威胁。其中,老年人自我管理意识薄弱且缺乏自我管理能力,提升老年慢性病患者的自我管理能力,树立其健康管理理念,有助于老年慢性病患者群体的身心健康,探究适合老年慢性病患者自我管
聚类是将特征相似的数据对象放在同一个簇中,相异的放在不同簇中的过程,它在分析数据的特征以及内在结构时起到重要作用。现在聚类技术已经被广泛地应用于各个领域,如:金融行