基于多流的视频级行为识别方法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:chengm1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今技术的发展,视频分析有着越来越多的应用场景,例如视频目标检测、动作识别等。其中,视频行为识别是一个受到广泛关注的任务。视频行为识别是对给定视频中人的动作进行识别,给出目标的行为类别,例如打篮球等。相对于包含丰富的静态外观信息的图像识别,视频中包含更多的时序动作信息,如何有效的获取视频中的动作信息,是视频行为识别任务的一大难点。传统的视频行为识别模型包括3D卷积模型、双流模型以及其他RNN模型捕捉视频序列中的动作。但是,这些模型往往无法充分获取视频中的多个维度信息。为了克服视频行为识别中信息捕捉不充分的问题,本文提出了融合多流的方法,即融合空间流、时间流、时空流等多个模型,捕捉动作信息。同时,为了解决视频识别中大量冗余信息以及提取光流慢的问题,本文从压缩视频角度出发,同时探究更高效的卷积方式,进一步的减少训练参数和计算成本。最后,为了充分考虑动作在不同时间片段中的不同表现,本文提出了具有动作一致性的视频级行为识别方法,对不同动作在某些时刻的相似表现进一步进行区分。本文的主要工作如下:(1)研究了如何从不同的维度捕捉特征,获取视频级的行为识别结果。结合2D和3D卷积,融合时间流、空间流、时空流多个流(模型),对视频中的信息进行处理。实验证实基于多模型融合的视频级行为识别方法与传统的方法相比达到了最高的准确率。(2)利用视频压缩技术,将压缩视频中的多种模态用来替代光流捕获动作信息,增加了残差图像和运动向量作为输入的两个流,提出了基于压缩视频的Oct-Res Net模型。实验证明,基于压缩视频的Oct-Res Net模型在准确率和效率上都有更好的表现。(3)针对视频级行为识别中存在的部分片段相似导致动作混淆问题,提出了基于动作一致性的视频级行为识别方法。在视频的多个片段直接添加一致性的限制,通过实验证明,一致性损失可以有效区分在某些片段具有同样动作形态的多个动作。(4)除了上述对于算法模型的创新之外,本文还完成了以下几项重要的工作。首先,通过收集和整理得到足够的训练集和验证集样本,并进行数据预处理。其次,使用机器学习框架实现文中的算法模型,通过调参和训练得到训练模型。最后,对训练好的模型进行测试,得到识别结果。
其他文献
目的 采用单细胞RNA测序及网络药理学方法探讨逍遥散治疗三阴性乳腺癌(TNBC)的潜在分子机制。方法 收集GEO数据库中TNBC及正常乳腺组织相关的单细胞RNA测序数据,利用R语言软件中的Seurat3.0程序包对其进行主成分分析(PCA)及tSNE聚类分析,并收集各亚群细胞的差异表达基因。通过中药系统药理学数据库及分析平台(TCMSP)检索逍遥散活性成分,获取逍遥散活性成分作用靶点与TNBC v
期刊
目前城市发展日益加速,城区电网规模也越来越大。以青岛市为例,青岛市域具有小电流接地系统的变电站142座,青岛公司已完成全部市域变电站母线电容电流实测,部分变电站存在电容电流超标现象,一旦配网发生单相接地故障极易造成的电缆火灾、大面积停电及重大人身触电事件的问题。因此接地线路运行一到两小时已经不适用于当今社会的发展,所以当小电流接地系统发生单相接地故障时,应快速进行选线切除故障,否则发生电流电弧引燃
学位
为了探讨低温胁迫对青大1号紫花苜蓿幼苗生理特性的影响,将其幼苗置于0℃,分别低温胁迫6、12、24、48、72 h,以25℃为对照,通过测定低温胁迫下紫花苜蓿叶片生长及生理指标确定其抗寒生理特性。结果表明:相较于对照组,随着低温时间的延长,丙二醛含量呈先升高后降低直至平稳的趋势;随着低温时间延长,叶片中脯氨酸含量逐渐积累,在低温胁迫6 h处理下叶片脯氨酸含量最低,为0.019 1μg/g, 24
期刊
无线携能通信(Simultaneously Wireless Information and Power Transfer,SWIPT)是一种具有广阔应用前景的绿色通信技术,能够从环境射频信号中收集能量,并利用收集到的能量传输信息,具有灵活性高,组网便捷,绿色可持续的优势。SWIPT接收机的资源分配策略是决定SWIPT网络性能优劣的关键所在,现有SWIPT接收机资源分配策略只考虑实现当前时刻内网络
学位
电偶腐蚀是海洋结构工程中的常见的腐蚀行为之一,由于异种金属间的腐蚀电位差,电偶腐蚀体系中的阳极往往会产生较为严重的腐蚀行为。然而目前在船用低合金钢和不锈钢多种金属电偶腐蚀体系的认识尚不充分,使得不锈钢在实际工程应用中存在腐蚀破坏风险。探究不锈钢和船体钢在不同电偶腐蚀体系中的腐蚀行为和规律,对工程应用和防护手段的选择有极为积极的作用。本文采用全浸腐蚀实验和电化学实验对不锈钢的自腐蚀行为进行了评价,同
学位
图像描述是一项计算机对给定图像自动生成相关文字描述的技术。不同于一般的图像识别模型,图像描述不但包括对物体、人物、场景的识别,也涉及对于文本理解和生成,是多模态领域一个极富挑战性和应用前景的领域。图像描述首先要解决多模态信息的融合问题,因为图像描述的文本和图像的融合质量直接决定了描述的生成质量。为了让图像描述根据生成句子的状态对图像施加不同的“关注度”,注意力机制被应用到了图像描述领域。然而,目前
学位
中空结构广泛存在于自然界和工业领域中,不仅具有高的刚度-质量比等优异的力学性能,还具有良好的工艺性能,容易满足制造工艺对结构尺寸均匀的要求。然而,目前尚缺乏有效的方法来设计中空结构。当前拓扑优化作为一种可以设计高性能结构的方法,获得的优化结果通常都是实心结构,难以直接转化为中空结构。同时考虑到中空结构容易发生大变形,那么开展几何非线性结构的中空拓扑优化设计的研究工作具有重要意义。因此,本文具体研究
学位
在地震数据解释中,断层被认为是地震反射的不连续性,断层组合则是指在一定范围内同时出现的多个断层组成的某种几何形式。基于地震图像的断层及断层组合解释是地质构造解释、储层表征和井位布置选取的关键步骤。目前,在断层组合的检测方面仍然停留在人工判断的阶段。存在耗时久、难度高、流程复杂、具有经验误差等问题。而随着机器学习、深度学习、计算机视觉等高新技术的发展,卷积神经网络已应用到了多个领域并取得了巨大的成功
学位
学位
地震勘探是当前全球油气勘探的主要技术,其通过人工激发并记录地震波,利用计算机对所采集的地震记录进行加工、改造,以获取地下介质的构造分布信息。勘探地区地质环境复杂多变、废炮、检波器故障等因素的存在,导致得到的地震数据是不完整的。进而对后期的数据处理和解释工作造成一定的困扰,因此完整地震数据的重建成为地震资料处理的重要环节。传统的地震数据插值通常需要假设地震数据是线性的或是稀疏的。深度学习作为近年来的
学位