基于自注意力机制的视频行为分析

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:meiwanmeiliao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频行为识别是智能视频分析的重要组成部分.传统人体行为识别基于人工设计特征方法涉及的环节多,具有时间开销大,算法难以整体调优的缺点.针对two-stream系列的深度卷积网络,时间网络的输入是直接以相邻两帧的光流场作为输入,其中也包含了镜头移动、背景运动等无关的运动特征的问题,在视频时序上仅通过分块取样固定长度的帧,其中有效的运动信息可能不完整或包含过多的冗余信息等问题.这篇文章提出了时空自注意力运动特征提取的方法,以RGB图像及其相邻帧的灰度图的视频帧块分别作为场景网络和运动网络的输入,采用多尺度视频划分的方式一定程度上避免了因视频过长导致采样运动信息不完整或冗余.然后在多尺度上对场景网络与运动网络通过自注意力机制融合编码,最终输出检测结果.对UCF101与HMDB51数据集的测试准确率分别为94.78%和71.47%.实验表明对于视频行为分析问题,场景与运动特征通过自注意力融合能够有效提升检测精度.
其他文献
针对SIFT算法在图像融合中耗时长,维度高的问题,论文设计了一种基于SURF、FLANN和RANSAC三者结合的拼接方法.首先利用SURF算法鲁棒性强、算法复杂度低的优势来进行特征点的检测,凭借FLANN算法可以调整参数来进行精确度的提升的优点来进行特征点的匹配,并与常见的BF算法匹配进行比较;针对其中错误匹配对的存在,采用RANSAC算法对存在匹配错误的点进行剔除并进行单应矩阵的计算,来找到最好的模型匹配对,降低误差;最终采用加权平均法进行图像的融合.通过实验验证,算法提高了匹配效率,拼接效果良好.
在图像畸变矫正和图像缩放过程中,需要使用插值算法对像素点进行插值.为了更好地保留图像的纹理细节,以及降低算法时间复杂度,论文提出一种基于OTSU的图像插值算法.利用被插值点四邻域像素的方差来划分图像区域,并采用OTSU算法确定阈值,对图像平坦区域采用双线性插值,而图像纹理细节部分采用双三次插值.实验结果表明,该算法很好地保留了图像细节部分,算法时间复杂度较低,获得的图像质量高,算法具有一定的实用价值.
数据融合是一种利用多种检索系统优势来增强检索结果的技术,当候选成员系统数量过多时,融合结果性能并未随之提升.论文提出了一种基于变色龙层次聚类和序列前向的选择算法(RFS),该方法首先评估所有检索结果列表的相关性进行聚类,之后使用序列向前算法从不同的簇中挑选成员系统组用于数据融合,实验结果表明该算法能有效地筛选出较优的成员系统组,从而显著改善融合性能.
随着计算机视觉和自然语言处理的日益发展,视觉问答也发展为计算机科学领域的一个重要研究方向.视觉问答需要跨模态的理解与推理能力(图像与文本).由于图中节点和边的高度相关性以及图本身的联通性,图在提高视觉问答模型的推理能力上有一定的潜力,因此提出了一种基于图卷积网络的视觉问答方法.首先使用神经网络分别提取图像和文本特征,再用图处理模块将预处理后图像和文本处理为图结构数据,然后实现基于图卷积网络的模型设计,数据训练与答案预测.通过与ReasonNet和BottomUp等模型在VQA2.0数据集上进行对比实验,验
基于光学相关层析成像(OCT),准确分割出视网膜液体区域相关异常和视网膜色素上皮分离对眼底疾病诊断具有重要意义.论文提出一种基于深度学习的分割方法,实现对视网膜色素上皮脱离(PED)、视网膜下液体(SRF)和视网膜水肿区域(REA)等病变类型区域的自动分割.首先使用迁移学习模型InceptionV4对所有病变类型进行分类,然后构建生成对抗网络对每种病变类型区域进行自动分割.实验结果表明,该方法Dice相似性系数约为0.75,灵敏度约为0.95,特异性约为0.96,召回率约0.98,整体优于其他方法.
针对基于深度学习的卷积神经网络需要巨大的数据样本才能得到较好的效果.该研究在加入数据扩充的基础下,基于U-Net网络提出了一种二级卷积神经网络在小样本下的秀丽隐杆线虫端泡自动分割方法,并在第一级网络加入最大包含损失来降低两级网络的内部干扰.解决了应用传统单级网络在小样本下分割效果不好的问题.实验表明,对与秀丽隐杆线虫端泡的分割,Dice Coefficien达到89.5%,Jaccard Index达到了81.5%.
针对山火烟雾的检测存在由于监控范围广、发生频率不固定等造成的高成本问题,在边缘计算思维的启发下,提出了一个基于YOLOv5改进的适用于前端布设的轻量级识别网络.该方法针对YOLOv5模型过大的缺陷,通过修改网络结构,将融合了通道注意力机制CoordAttention的Ghostbottleneck模块与YOLOv5结合,提出一种改进型卷积神经网络CG-yolo识别网络.实验结果表明,CG-yolo相对于YOLOv5s算法速度提高了9.5%,查全率提升了1.8%,查准率仅损失1.7%,部署在NVIDIA的J
为了恢复极低分辨率人脸图像的轮廓及更多细节,论文提出一种结合基于特征的反投影方法以及人脸语义分割的方法.该方法有四部分,包括初步重建网络、精细编码网络、人脸信息先验估计网络以及精细解码网络.首先通过初步重建网络,将图像进行4倍上采样.其次使用DBPN的反投影网络进行精细重建,对初步重建网络的结果进行两倍上采样.与此同时,引入U-net网络对初步重建网络输出结果进行语义分割,得到人脸分割信息.最后将精细网络的输出结果与人脸分割信息进行维度拼接并卷积,完成最后的重建.论文还在MSE损失函数的基础上引入人脸先验
多机器人协同是未来机器人研究的一大热点,双机器人系统是其中的一个典型代表.针对目前双机器人协同系统的特性及常见应用,从动力学模型的建立、轨迹规划和协同控制等3方面介绍了双机器人协同系统的研究内容,分析各方面目前存在的技术漏洞和技术难点,指出未来发展的方向.
针对二次反射技术中二次反射镜空间尺度较大、表面反射率高的特点,利用周期性分布的彩色编码板和图像识别方法获得彩色色块虚像的分布情况,通过与理想色块虚像分布的对比计算实际矢量与理想矢量的偏差角,再根据反射定律计算反射法线偏差角分布用于评估待测二次反射镜面形质量.通过仿真实验与样品试验进行验证,结果表明该方法能够实现高精度的、高效的二次反射镜面形质量检测,为二次反射聚光效率评估提供有效的数据支持,保证光热发电站的发电效率.